SpecVQA: un benchmark per testare la comprensione degli spettri scientifici nei MLLM
I ricercatori hanno introdotto SpecVQA, un benchmark progettato per valutare la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLM) di comprendere e ragionare sugli spettri scientifici. Il benchmark copre sette tipi di spettro rappresentativi e include 620 figure con 3.100 coppie domanda-risposta annotate da esperti, tratte da letteratura peer-reviewed. SpecVQA si concentra sia sull'estrazione diretta di informazioni che sul ragionamento specifico del dominio. Per affrontare i problemi di lunghezza dei token, il team propone un approccio di campionamento e ricostruzione per interpolazione dei dati spettrali che preserva le caratteristiche essenziali delle curve. Studi di ablazione confermano l'efficacia di questo metodo. Il lavoro è dettagliato in un articolo su arXiv (ID: 2604.28039).
Fatti principali
- SpecVQA è un benchmark per valutare i MLLM sulla comprensione degli spettri scientifici.
- Copre 7 tipi di spettro rappresentativi.
- Contiene 620 figure e 3.100 coppie QA da letteratura peer-reviewed.
- Le coppie QA sono annotate da esperti.
- Il benchmark si concentra sull'estrazione diretta di informazioni e sul ragionamento specifico del dominio.
- Propone un approccio di campionamento e ricostruzione per interpolazione dei dati spettrali per ridurre la lunghezza dei token.
- Studi di ablazione confermano l'efficacia dell'approccio.
- L'articolo è disponibile su arXiv con ID 2604.28039.
Entità
Istituzioni
- arXiv