MoleCode: un linguaggio molecolare grafico-esplicito per LLM
I ricercatori hanno introdotto MoleCode, un linguaggio molecolare grafico-esplicito senza training, progettato per grandi modelli linguistici (LLM). A differenza di SMILES, che comprime la topologia molecolare in stringhe lineari, MoleCode rappresenta atomi, legami, rami e anelli come entità tipizzate con identificatori persistenti e relazioni esplicite. Ciò rende la struttura molecolare direttamente leggibile, modificabile e verificabile nel contesto linguistico, consentendo agli LLM di operare sulla struttura anziché ricostruirla dalla sintassi. L'approccio migliora gli LLM all'avanguardia in compiti di ragionamento, editing, generazione e analisi molecolare, in particolare quando l'accesso strutturale è limitato, come con molecole non familiari. L'articolo è disponibile su arXiv.
Fatti principali
- MoleCode è un linguaggio molecolare grafico-esplicito senza training per LLM.
- Rappresenta i componenti molecolari come entità tipizzate con identificatori persistenti e relazioni esplicite.
- MoleCode rende la topologia molecolare direttamente leggibile, modificabile e verificabile.
- Migliora gli LLM all'avanguardia in compiti di ragionamento, editing, generazione e analisi molecolare.
- Il miglioramento è più forte per molecole non familiari.
- L'articolo è disponibile su arXiv con ID 2605.16480.
- MoleCode è un'alternativa alla rappresentazione SMILES.
- Non richiede training aggiuntivo per gli LLM.
Entità
Istituzioni
- arXiv