ARTFEED — Contemporary Art Intelligence

I LLM hanno difficoltà con il ragionamento a catena lunga nel problema delle classi di equivalenza

ai-technology · 2026-05-11

Un nuovo studio empirico su arXiv valuta i modelli linguistici di grandi dimensioni (LLM) sul problema delle classi di equivalenza (ECP), un compito di ragionamento a catena lungo semplice ma impegnativo. Lo studio testa sia modelli di ragionamento che non di ragionamento con variabili variabili, probabilità di connettività e prompt. I LLM non di ragionamento falliscono completamente l'ECP, mentre i modelli di ragionamento ottengono risultati significativamente migliori ma non riescono ancora a risolverlo completamente. Per i modelli non di ragionamento, le prestazioni diminuiscono all'aumentare della probabilità di connettività con variabili fisse. L'articolo evidenzia limitazioni fondamentali nelle capacità di ragionamento degli LLM.

Fatti principali

  • Lo studio valuta gli LLM sul problema delle classi di equivalenza (ECP)
  • L'ECP determina se due variabili sono uguali date relazioni di equivalenza
  • I LLM non di ragionamento falliscono l'ECP
  • I modelli di ragionamento sono migliori ma faticano a risolvere completamente l'ECP
  • Le prestazioni variano con la probabilità di connettività e il numero di variabili
  • I modelli non di ragionamento mostrano un calo delle prestazioni con una maggiore probabilità di connettività
  • Lo studio appare su arXiv come 2605.06882
  • Si concentra sui compiti di ragionamento a catena lunga più semplici

Entità

Istituzioni

  • arXiv

Fonti