XDomainBench diagnostica il collasso del ragionamento nei LLM per la scienza
Un nuovo benchmark, XDomainBench, rivela che i modelli linguistici di grandi dimensioni (LLM) soffrono di un collasso sistematico del ragionamento quando compongono conoscenze tra discipline scientifiche. Il benchmark, introdotto in un articolo su arXiv (2605.14754), simula flussi di lavoro scientifici interdisciplinari interattivi con 8.598 sessioni in 20 domini e 4 categorie di compiti. Formalizza l'ordine di composizione e la struttura della miscela per testare i modelli dal ragionamento monodisciplinare a quello interdisciplinare. Le valutazioni mostrano che all'aumentare dell'ordine di composizione, i LLM mostrano un collasso del ragionamento, attribuito a due cause profonde. Lo studio mira a colmare il divario nei benchmark esistenti che si concentrano su scenari a turno singolo, non riuscendo a catturare le complessità delle applicazioni AI4S (AI for Science) del mondo reale.
Fatti principali
- XDomainBench è un benchmark diagnostico per il ragionamento scientifico interdisciplinare interattivo.
- Comprende 8.598 sessioni interattive in 20 domini e 4 categorie di compiti.
- Il benchmark include 8 pattern di traiettorie realistici che coprono la difficoltà e le dinamiche di miscela dei domini.
- La valutazione su larga scala dei LLM rivela un collasso sistematico del ragionamento all'aumentare dell'ordine di composizione.
- Il collasso deriva da due cause profonde (non specificate nell'abstract).
- I benchmark esistenti si concentrano principalmente su scenari ristretti a turno singolo.
- Il benchmark simula scenari AI4S del mondo reale.
- L'articolo è disponibile su arXiv con ID 2605.14754.
Entità
Istituzioni
- arXiv