Collasso della Composizione nei LLM: I Fatti Stabili Non Garantiscono il Ragionamento

ai-technology · 2026-05-27

Una recente indagine pubblicata su arXiv (2605.26789) indica che, sebbene i grandi modelli linguistici possano trattenere in modo affidabile singoli fatti, faticano a integrarli in sequenze di ragionamento multi-hop, una situazione definita 'collasso della composizione'. I ricercatori propongono un protocollo a doppio gate per valutare i restanti fallimenti di composizione basati sull'accesso atomico stabile, scomponendo i miglioramenti post-addestramento in stabilità atomica, composizione residua e profondità critica. La loro analisi di catene fattuali temporali, con profondità da 2 a 11 attraverso quattro metodi post-addestramento, ha rivelato che la conoscenza atomica, statisticamente simile, può portare a risultati di composizione che differiscono di oltre 40 punti percentuali. Questo risultato suggerisce che i punteggi aggregati dei benchmark, che considerano il ragionamento multi-hop come un'unica abilità, potrebbero essere fuorvianti.

Fatti principali

Il collasso della composizione è il fallimento sistematico nell'assemblare fatti stabilmente noti in catene.
Conoscenza atomica statisticamente indistinguibile può produrre comportamenti di composizione separati da oltre 40 punti percentuali.
Il protocollo a doppio gate cambia lo stimando dal gap di composizionalità aggregato al fallimento di composizione residua condizionato all'accesso atomico stabile.
I guadagni post-addestramento sono scomposti in tre canali indipendenti: stabilità atomica, composizione residua e profondità critica.
Il benchmark utilizza catene fattuali temporali che spaziano dalla profondità 2 alla 11.
Sono state valutate quattro ricette post-addestramento.
I punteggi aggregati dei benchmark sono fuorvianti per il ragionamento multi-hop.
Lo studio è pubblicato su arXiv con ID 2605.26789.

Collasso della Composizione nei LLM: I Fatti Stabili Non Garantiscono il Ragionamento

Fatti principali

Entità

Istituzioni

Fonti