Il framework ChemVA colma il divario dei LLM nella comprensione dei diagrammi chimici
I ricercatori hanno individuato due ostacoli principali che impediscono ai Large Language Models (LLM) di interpretare accuratamente i diagrammi di reazione chimica. Il primo è un Deficit Visivo, per cui i codificatori visivi convenzionali faticano con le complesse connessioni topologiche presenti nei densi grafi molecolari. Il secondo è un Disconnessione Semantica, per cui le rappresentazioni lineari tipiche come SMILES non stimolano un ragionamento chimico intrinseco. Per affrontare questi problemi, introducono il framework Chemical Visual Activation (ChemVA), che incorpora un meccanismo di Ancoraggio Visivo per rilevare gruppi funzionali a granularità variabile e una strategia di allineamento semantico per convertire le caratteristiche visive in nomi di entità, migliorando l'attivazione della conoscenza nei LLM. Questo metodo viene valutato utilizzando OCRD-Bench, un dataset di nuova creazione con contesti visivo-semantici complessi. I risultati sono pubblicati su arXiv:2605.17214.
Fatti principali
- 1. arXiv:2605.17214 annuncia il framework ChemVA.
- 2. Due colli di bottiglia identificati: Deficit Visivo e Disconnessione Semantica.
- 3. Deficit Visivo: i codificatori visivi generici faticano con la topologia dei grafi molecolari.
- 4. Disconnessione Semantica: le stringhe SMILES non attivano il ragionamento chimico.
- 5. ChemVA utilizza un meccanismo di Ancoraggio Visivo per il rilevamento a granularità ibrida.
- 6. L'allineamento semantico traduce le caratteristiche visive in nomi di entità.
- 7. Valutazione su OCRD-Bench, un nuovo dataset con contesti visivo-semantici densi.
- 8. Il lavoro mira a migliorare la comprensione dei diagrammi di reazione chimica da parte dei LLM.
Entità
Istituzioni
- arXiv