Divario Monitoraggio-Controllo nei LLM con Recupero Aumentato
Un nuovo studio da arXiv rivela una critica falla nei modelli linguistici di grandi dimensioni con recupero aumentato (RAG): essi possono rilevare prove contraddittorie ma non riescono a risolverle in modo sicuro in interazioni multi-turno. La ricerca, che coinvolge quattro famiglie di modelli con parametri da 1,5B a 32B e oltre 50.000 valutazioni a livello di turno, mostra che le diagnostiche a turno singolo sovrastimano la sicurezza dei RAG. Il divario monitoraggio-controllo dimostra che riconoscere una contraddizione non è correlato a una risoluzione sicura, un pattern confermato dalla validazione umana. Non esiste una soluzione universale tramite prompt, e le evidenze meccanicistiche derivanti dal probing degli stati nascosti e dall'analisi dell'attenzione supportano i risultati.
Fatti principali
- Articolo arXiv 2605.27157
- Quattro famiglie di modelli testate (parametri 1,5B-32B)
- Oltre 50.000 valutazioni a livello di turno
- Diagnostiche a turno singolo sovrastimano la sicurezza dei RAG
- Riconoscimento della contraddizione non correlato a risoluzione sicura
- Non esiste una soluzione universale tramite prompt
- Utilizzo di probing degli stati nascosti e analisi dell'attenzione
- Validazione umana ha corroborato il pattern
Entità
Istituzioni
- arXiv