Il dataset SciMDR potenzia il ragionamento multimodale su documenti scientifici
Un nuovo dataset di addestramento, SciMDR, è stato lanciato da ricercatori per migliorare la comprensione cross-modale nella letteratura scientifica, con 300K coppie domanda-risposta e catene di ragionamento esplicite derivate da 20K articoli scientifici. Questo dataset è stato sviluppato attraverso un approccio innovativo di sintesi e riancoraggio che bilancia scala, fedeltà e realismo. Il processo consiste in due fasi: Sintesi di QA incentrata sulle affermazioni, che produce coppie QA accurate e isolate con ragionamento per segmenti specifici, e Ri-ancoraggio a scala di documento, che integra programmaticamente queste coppie in compiti documentali completi per riflettere la complessità realistica. Inoltre, il team ha creato SciMDR-Eval, un benchmark con annotazioni esperte per valutare la comprensione multimodale in flussi di lavoro scientifici completi. Gli esperimenti indicano che i modelli perfezionati con SciMDR mostrano notevoli progressi nel ragionamento multimodale su documenti scientifici.
Fatti principali
- SciMDR è un dataset di addestramento su larga scala per la comprensione cross-modale.
- Contiene 300K coppie QA con catene di ragionamento esplicite.
- Il dataset copre 20K articoli scientifici.
- Costruito utilizzando un framework di sintesi e riancoraggio.
- Il framework include Sintesi di QA incentrata sulle affermazioni e Ri-ancoraggio a scala di documento.
- SciMDR-Eval è un benchmark annotato da esperti per la valutazione.
- I modelli ottimizzati su SciMDR mostrano miglioramenti significativi.
- La ricerca è pubblicata su arXiv con ID 2603.12249.
Entità
Istituzioni
- arXiv