I LLM Perdono la Concentrazione nelle Interazioni Multi-Turn: Studio sul Degrado dell'Attenzione
Uno studio recente pubblicato su arXiv (2605.12922) esamina le ragioni per cui i modelli linguistici di grandi dimensioni (LLM) perdono traccia di istruzioni, persona e regole durante conversazioni estese multi-turn. I ricercatori propongono una teoria di transizione di canale, indicando che i token che definiscono l'obiettivo diventano meno accessibili a causa di spostamenti dell'attenzione, sebbene le informazioni relative all'obiettivo possano persistere nelle rappresentazioni residue. Presentano il Goal Accessibility Ratio (GAR) per valutare l'attenzione dai token generati ai token obiettivo che definiscono il compito, utilizzando ablazioni a finestra scorrevole e sonde del flusso residuo. I risultati rivelano che diverse architetture mostrano modalità di fallimento distinte: alcuni modelli mantengono un comportamento condizionato all'obiettivo anche con attenzione ridotta, mentre altri falliscono nonostante abbiano informazioni residue decodificabili sull'obiettivo, con lo strato di codifica che varia tra i modelli. Questo studio offre una visione meccanicistica del declino comportamentale precedentemente notato ma non spiegato.
Fatti principali
- Studio su arXiv con ID 2605.12922
- Indaga il degrado degli LLM nelle interazioni multi-turn
- Propone una spiegazione basata sulla transizione di canale per la perdita di attenzione
- Introduce la metrica Goal Accessibility Ratio (GAR)
- Utilizza ablazioni a finestra scorrevole e sonde del flusso residuo
- Trova modalità di fallimento distinte tra le architetture
- Alcuni modelli mantengono il comportamento nonostante l'attenzione svanisca
- Altri modelli falliscono anche con informazioni residue decodificabili sull'obiettivo
Entità
Istituzioni
- arXiv