I LLM raggiungono il 100% di recupero a singolo ago su 1 milione di token, ma faticano con il ragionamento multi-hop
Uno studio recente valuta cinque modelli linguistici avanzati che dichiarano finestre di contesto da 1 milione di token, utilizzando un dataset classico cinese. Nel Test 1, viene valutato il recupero a singolo ago su 1 milione di token, incorporando tre aghi biografici a profondità variabili, e impiega varianti reali e modificate per distinguere tra recupero nel contesto e memorizzazione. Gemini 3.1 Pro, Claude Opus 4.7 e GPT-5.5 raggiungono tutti una precisione perfetta. Il Test 2 esamina il traversal di catene multi-hop attraverso tre livelli di contesto (256K, 512K, 1 milione di token), evidenziando un notevole calo delle prestazioni all'aumentare del numero di passaggi di ragionamento.
Fatti principali
- Sono stati valutati cinque LLM all'avanguardia con finestre di contesto da 1 milione di token.
- Test 1: recupero a singolo ago su 1 milione di token con tre aghi biografici.
- Aghi posizionati a tre profondità con varianti reali e alterate.
- Gemini 3.1 Pro, Claude Opus 4.7 e GPT-5.5 hanno raggiunto una precisione del 100%.
- Test 2: traversal di catene a tre hop attraverso 256K, 512K e 1 milione di token.
- Le prestazioni multi-hop rivelano un netto decadimento delle capacità.
- Lo studio utilizza un corpus testuale classico cinese.
- Pubblicato su arXiv come 2605.02173v1.
Entità
Istituzioni
- arXiv