I LLM raggiungono il 100% di recupero a singolo ago su 1 milione di token, ma faticano con il ragionamento multi-hop

ai-technology · 2026-05-06

Uno studio recente valuta cinque modelli linguistici avanzati che dichiarano finestre di contesto da 1 milione di token, utilizzando un dataset classico cinese. Nel Test 1, viene valutato il recupero a singolo ago su 1 milione di token, incorporando tre aghi biografici a profondità variabili, e impiega varianti reali e modificate per distinguere tra recupero nel contesto e memorizzazione. Gemini 3.1 Pro, Claude Opus 4.7 e GPT-5.5 raggiungono tutti una precisione perfetta. Il Test 2 esamina il traversal di catene multi-hop attraverso tre livelli di contesto (256K, 512K, 1 milione di token), evidenziando un notevole calo delle prestazioni all'aumentare del numero di passaggi di ragionamento.

Fatti principali

Sono stati valutati cinque LLM all'avanguardia con finestre di contesto da 1 milione di token.
Test 1: recupero a singolo ago su 1 milione di token con tre aghi biografici.
Aghi posizionati a tre profondità con varianti reali e alterate.
Gemini 3.1 Pro, Claude Opus 4.7 e GPT-5.5 hanno raggiunto una precisione del 100%.
Test 2: traversal di catene a tre hop attraverso 256K, 512K e 1 milione di token.
Le prestazioni multi-hop rivelano un netto decadimento delle capacità.
Lo studio utilizza un corpus testuale classico cinese.
Pubblicato su arXiv come 2605.02173v1.

I LLM raggiungono il 100% di recupero a singolo ago su 1 milione di token, ma faticano con il ragionamento multi-hop

Fatti principali

Entità

Istituzioni

Fonti