Studio rivela fallimenti posizionali nei benchmark di ragionamento per LLM a lungo contesto

ai-technology · 2026-05-25

Uno studio recente disponibile su arXiv (2605.23170) indica che gli attuali benchmark di ragionamento a lungo contesto non tengono adeguatamente conto del posizionamento dei compiti target all'interno di sequenze lunghe. I ricercatori hanno esaminato 11 benchmark a lungo contesto e scoperto che nessuno gestisce efficacemente simultaneamente la posizione del compito, il contenuto filler e la lunghezza del contesto per compiti di ragionamento. Un'analisi di quattro importanti rilasci di modelli a lungo contesto ha rivelato che non c'erano voci nelle tabelle dei risultati principali per i benchmark Needle-in-a-Haystack (NIAH), RULER o LongBench-family, mentre i benchmark agentici e di codifica erano costantemente presenti. Per rimediare, gli autori introducono Context Rot Evaluation (CRE), un framework controllato che manipola tutte e tre le variabili. Hanno valutato nove LLM su GSM8K e ARC-Challenge in due fasi: un set iniziale di cinque modelli e quattro nuovi rilasci di fornitori. I risultati indicano che i modelli possono subire cali significativi delle prestazioni quando il compito target si sposta dalla fine al centro del contesto, con il declino aggravato da lunghezze di contesto maggiori. Ad esempio, MiMo-v2-Flash ha visto una diminuzione di 88 punti percentuali a una lunghezza di contesto di 64K in condizioni specifiche. Questo studio sottolinea una significativa svista nei metodi di valutazione attuali per LLM a lungo contesto.

Fatti principali

Il paper arXiv 2605.23170 esamina 11 benchmark a lungo contesto per il controllo posizionale.
Nessun benchmark controlla congiuntamente posizione del compito, contenuto filler e lunghezza del contesto per il ragionamento.
Quattro rilasci di modelli a lungo contesto mancano di voci nelle tabelle dei risultati principali per i benchmark NIAH, RULER o LongBench-family.
I benchmark agentici e di codifica appaiono nelle tabelle dei risultati principali in tutti e quattro i rilasci.
Viene proposta Context Rot Evaluation (CRE) per variare posizione del compito, contenuto filler e lunghezza del contesto.
Nove LLM valutati su GSM8K e ARC-Challenge in due round.
I modelli calano bruscamente quando il compito target si sposta dalla fine al centro del contesto.
MiMo-v2-Flash cala di 88 punti percentuali a una lunghezza di contesto di 64K.
Il calo peggiora con lunghezze di contesto maggiori per i modelli vulnerabili.

Studio rivela fallimenti posizionali nei benchmark di ragionamento per LLM a lungo contesto

Fatti principali

Entità

Istituzioni

Fonti