Divario Monitoraggio-Controllo nei LLM con Recupero Aumentato

ai-technology · 2026-05-27

Un nuovo studio da arXiv rivela una critica falla nei modelli linguistici di grandi dimensioni con recupero aumentato (RAG): essi possono rilevare prove contraddittorie ma non riescono a risolverle in modo sicuro in interazioni multi-turno. La ricerca, che coinvolge quattro famiglie di modelli con parametri da 1,5B a 32B e oltre 50.000 valutazioni a livello di turno, mostra che le diagnostiche a turno singolo sovrastimano la sicurezza dei RAG. Il divario monitoraggio-controllo dimostra che riconoscere una contraddizione non è correlato a una risoluzione sicura, un pattern confermato dalla validazione umana. Non esiste una soluzione universale tramite prompt, e le evidenze meccanicistiche derivanti dal probing degli stati nascosti e dall'analisi dell'attenzione supportano i risultati.

Fatti principali

Articolo arXiv 2605.27157
Quattro famiglie di modelli testate (parametri 1,5B-32B)
Oltre 50.000 valutazioni a livello di turno
Diagnostiche a turno singolo sovrastimano la sicurezza dei RAG
Riconoscimento della contraddizione non correlato a risoluzione sicura
Non esiste una soluzione universale tramite prompt
Utilizzo di probing degli stati nascosti e analisi dell'attenzione
Validazione umana ha corroborato il pattern

Divario Monitoraggio-Controllo nei LLM con Recupero Aumentato

Fatti principali

Entità

Istituzioni

Fonti