ReactBench Benchmark Rivela le Limitazioni dei MLLM nel Ragionamento Topologico sui Diagrammi Chimici

ai-technology · 2026-04-20

Un nuovo benchmark chiamato ReactBench rivela significative carenze nella capacità dei Modelli Linguistici Multimodali di Grande Scala di ragionare su strutture topologiche complesse. Questi modelli di intelligenza artificiale faticano con diagrammi che presentano percorsi ramificati, flussi convergenti e dipendenze cicliche, fallendo persino in compiti basilari come il conteggio degli endpoint. I diagrammi di reazione chimica fungono da terreno di prova poiché comprendono naturalmente strutture diverse, dalle catene lineari ai grafi ciclici. Il benchmark comprende 1.618 coppie domanda-risposta annotate da esperti, organizzate in quattro dimensioni di compiti gerarchici. I metodi di valutazione esistenti si sono concentrati principalmente sulla comprensione semantica piuttosto che sulle capacità di ragionamento strutturale. Una valutazione estensiva su 17 MLLM dimostra queste limitazioni fondamentali nel ragionamento visivo. La ricerca è stata annunciata su arXiv con l'identificatore 2604.15994v1.

Fatti principali

ReactBench è un nuovo benchmark per valutare i MLLM
I MLLM faticano con strutture topologiche complesse nei diagrammi
I diagrammi di reazione chimica vengono utilizzati come casi di test
Il benchmark contiene 1.618 coppie domanda-risposta annotate da esperti
La valutazione copre quattro dimensioni di compiti gerarchici
17 MLLM sono stati ampiamente valutati
I benchmark esistenti si concentrano sulla comprensione semantica piuttosto che sul ragionamento strutturale
La ricerca è stata annunciata su arXiv con l'identificatore 2604.15994v1

ReactBench Benchmark Rivela le Limitazioni dei MLLM nel Ragionamento Topologico sui Diagrammi Chimici

Fatti principali

Entità

Istituzioni

Fonti