ARTFEED — Contemporary Art Intelligence

Divario Monitoraggio-Controllo nei LLM con Recupero Aumentato

ai-technology · 2026-05-27

Un nuovo studio da arXiv rivela una critica falla nei modelli linguistici di grandi dimensioni con recupero aumentato (RAG): essi possono rilevare prove contraddittorie ma non riescono a risolverle in modo sicuro in interazioni multi-turno. La ricerca, che coinvolge quattro famiglie di modelli con parametri da 1,5B a 32B e oltre 50.000 valutazioni a livello di turno, mostra che le diagnostiche a turno singolo sovrastimano la sicurezza dei RAG. Il divario monitoraggio-controllo dimostra che riconoscere una contraddizione non è correlato a una risoluzione sicura, un pattern confermato dalla validazione umana. Non esiste una soluzione universale tramite prompt, e le evidenze meccanicistiche derivanti dal probing degli stati nascosti e dall'analisi dell'attenzione supportano i risultati.

Fatti principali

  • Articolo arXiv 2605.27157
  • Quattro famiglie di modelli testate (parametri 1,5B-32B)
  • Oltre 50.000 valutazioni a livello di turno
  • Diagnostiche a turno singolo sovrastimano la sicurezza dei RAG
  • Riconoscimento della contraddizione non correlato a risoluzione sicura
  • Non esiste una soluzione universale tramite prompt
  • Utilizzo di probing degli stati nascosti e analisi dell'attenzione
  • Validazione umana ha corroborato il pattern

Entità

Istituzioni

  • arXiv

Fonti