I LLM hanno difficoltà con il ragionamento a catena lunga nel problema delle classi di equivalenza

ai-technology · 2026-05-11

Un nuovo studio empirico su arXiv valuta i modelli linguistici di grandi dimensioni (LLM) sul problema delle classi di equivalenza (ECP), un compito di ragionamento a catena lungo semplice ma impegnativo. Lo studio testa sia modelli di ragionamento che non di ragionamento con variabili variabili, probabilità di connettività e prompt. I LLM non di ragionamento falliscono completamente l'ECP, mentre i modelli di ragionamento ottengono risultati significativamente migliori ma non riescono ancora a risolverlo completamente. Per i modelli non di ragionamento, le prestazioni diminuiscono all'aumentare della probabilità di connettività con variabili fisse. L'articolo evidenzia limitazioni fondamentali nelle capacità di ragionamento degli LLM.

Fatti principali

Lo studio valuta gli LLM sul problema delle classi di equivalenza (ECP)
L'ECP determina se due variabili sono uguali date relazioni di equivalenza
I LLM non di ragionamento falliscono l'ECP
I modelli di ragionamento sono migliori ma faticano a risolvere completamente l'ECP
Le prestazioni variano con la probabilità di connettività e il numero di variabili
I modelli non di ragionamento mostrano un calo delle prestazioni con una maggiore probabilità di connettività
Lo studio appare su arXiv come 2605.06882
Si concentra sui compiti di ragionamento a catena lunga più semplici

I LLM hanno difficoltà con il ragionamento a catena lunga nel problema delle classi di equivalenza

Fatti principali

Entità

Istituzioni

Fonti