La correzione lineare non riesce a risolvere i fallimenti decodificabili degli LLM nel QA medico
Uno studio recente pubblicato su arXiv (2605.05715) indica che, sebbene i segnali di fallimento nei modelli linguistici di grandi dimensioni (LLM) possano essere decodificati linearmente dai loro stati nascosti, le tecniche di steering lineare fisso sono inefficaci nel correggere questi fallimenti. L'indagine si concentra sull'"Overthinking" (OT) nel question answering medico, dove i modelli performano bene sotto ricampionamento ma faticano durante il ragionamento a catena di pensiero prolungato. L'OT raggiunge una decodificabilità lineare del 71,6% di accuratezza bilanciata (p < 10^{-16}), ma 29 configurazioni di steering lineare fisso su 1.273 prove non mostrano miglioramenti (Delta ~= 0). I risultati sono coerenti tra diverse architetture (Qwen2.5-7B) e domini (MMLU-STEM), rivelando l'intreccio rappresentazionale come una limitazione fondamentale negli attuali metodi di interpretabilità degli LLM.
Fatti principali
- Il paper arXiv 2605.05715 indaga il divario classificazione-correzione negli LLM.
- L'Overthinking (OT) è un regime comportamentale stabile nel QA medico con Jaccard >= 0,81 e accordo inter-annotatore del 94%.
- L'OT è linearmente decodificabile con accuratezza bilanciata del 71,6% (p < 10^{-16}).
- Cinque famiglie di steering lineare fisso (29 configurazioni, n=1.273) producono Delta ~= 0.
- I risultati nulli sono cross-architettura (Qwen2.5-7B) e cross-dominio (MMLU-STEM).
- La direzione OT ha una sovrapposizione dell'85-88% con il calcolo critico per il compito (rapporto di specificità <= 0,152).
- Lo steering non mirato con direzione condivisa danneggia l'accuratezza di -12,1 punti percentuali.
- La cancellazione del concetto LEACE danneggia l'accuratezza di -3,6pp (p=0,01), mentre 10 cancellazioni casuali producono Delta=+0,3pp.
Entità
Istituzioni
- arXiv