La ricerca sull'IA rivela i fallimenti del ragionamento multi-hop nei LLM e il metodo di sonda dell'attenzione
Uno studio recente esplora le sfide affrontate dai grandi modelli linguistici nell'eseguire ragionamenti multi-hop, nonostante le loro ampie finestre contestuali. Evidenzia un pregiudizio intrinseco di posizione che porta i modelli a perdere informazioni situate in determinate posizioni, risultando in quello che i ricercatori definiscono "Effetto Anello Debole". Questo effetto fa sì che le prestazioni nel ragionamento multi-hop scendano al livello dell'evidenza meno accessibile, influenzata dalla posizione assoluta piuttosto che dalla distanza tra i fatti. I ricercatori hanno sviluppato Multi-Focus Attention Instruction (MFAI), uno strumento semantico per determinare se i fallimenti derivano da difficoltà nel localizzare l'evidenza (fallimento di riconoscimento) o nel sintetizzarla (fallimento di sintesi). Testando cinque LLM su due compiti di QA multi-hop, MuSiQue e NeoQA, in una configurazione a 18 documenti e 3 bucket, l'MFAI corrispondente ha migliorato l'accuratezza fino all'11,49% nelle aree a bassa visibilità, mentre l'MFAI fuorviante ha prodotto risultati incoerenti. Pubblicato come arXiv:2601.12499v2, questo articolo sostituisce una versione precedente e continua l'esplorazione delle sfide del ragionamento nell'IA, suggerendo che i metodi di scalatura esistenti potrebbero non risolvere i problemi architetturali fondamentali nella gestione delle informazioni distribuite in contesti ampi da parte dei LLM.
Fatti principali
- I grandi modelli linguistici lottano con il ragionamento multi-hop nonostante le ampie finestre contestuali
- Il pregiudizio di posizione fa sì che i modelli trascurino informazioni in determinate posizioni
- I ricercatori hanno introdotto la sonda semantica Multi-Focus Attention Instruction (MFAI)
- Lo studio ha identificato l'"Effetto Anello Debole" nel ragionamento multi-hop
- Le prestazioni collassano al livello dell'evidenza meno visibile
- Testati cinque LLM sui compiti MuSiQue e NeoQA
- L'MFAI corrispondente ha migliorato l'accuratezza fino all'11,49% nelle posizioni a bassa visibilità
- La ricerca è stata pubblicata come arXiv:2601.12499v2 sostituendo la versione precedente
Entità
—