I LLM hanno difficoltà con il ragionamento a catena lunga nel problema delle classi di equivalenza
Un nuovo studio empirico su arXiv valuta i modelli linguistici di grandi dimensioni (LLM) sul problema delle classi di equivalenza (ECP), un compito di ragionamento a catena lungo semplice ma impegnativo. Lo studio testa sia modelli di ragionamento che non di ragionamento con variabili variabili, probabilità di connettività e prompt. I LLM non di ragionamento falliscono completamente l'ECP, mentre i modelli di ragionamento ottengono risultati significativamente migliori ma non riescono ancora a risolverlo completamente. Per i modelli non di ragionamento, le prestazioni diminuiscono all'aumentare della probabilità di connettività con variabili fisse. L'articolo evidenzia limitazioni fondamentali nelle capacità di ragionamento degli LLM.
Fatti principali
- Lo studio valuta gli LLM sul problema delle classi di equivalenza (ECP)
- L'ECP determina se due variabili sono uguali date relazioni di equivalenza
- I LLM non di ragionamento falliscono l'ECP
- I modelli di ragionamento sono migliori ma faticano a risolvere completamente l'ECP
- Le prestazioni variano con la probabilità di connettività e il numero di variabili
- I modelli non di ragionamento mostrano un calo delle prestazioni con una maggiore probabilità di connettività
- Lo studio appare su arXiv come 2605.06882
- Si concentra sui compiti di ragionamento a catena lunga più semplici
Entità
Istituzioni
- arXiv