Metodo di sensibilità al gradiente rileva allucinazioni ostinate nei LLM

ai-technology · 2026-05-06

I ricercatori propongono Embedding-Perturbed Gradient Sensitivity (EPGS) per rilevare 'allucinazioni ostinate' nei grandi modelli linguistici, dove i modelli sono sicuri ma sbagliati. Il metodo sfrutta la proprietà geometrica per cui i fatti robusti giacciono in minimi piatti mentre le allucinazioni ostinate occupano minimi acuti, supportati da memorizzazione fragile. EPGS perturba gli embedding di input con rumore gaussiano e misura il conseguente picco di magnitudo del gradiente, fungendo da proxy efficiente per lo spettro dell'Hessiano. Gli esperimenti mostrano che EPGS supera significativamente le baseline basate su entropia e rappresentazione nell'identificare errori fattuali ad alta confidenza.

Fatti principali

Le allucinazioni ostinate sono errori in cui i LLM sono sicuri ma sbagliati.
EPGS rileva minimi acuti tramite perturbazione degli embedding con rumore gaussiano.
I fatti robusti risiedono in minimi piatti; le allucinazioni ostinate in minimi acuti.
EPGS misura il picco di magnitudo del gradiente come proxy per lo spettro dell'Hessiano.
EPGS supera le baseline basate su entropia e rappresentazione.
Il metodo fornisce un segnale robusto per rilevare errori fattuali ad alta confidenza.
La ricerca è nell'apprendimento automatico nell'ambito dell'informatica.
Il paper è disponibile su arXiv.

Metodo di sensibilità al gradiente rileva allucinazioni ostinate nei LLM

Fatti principali

Entità

Istituzioni

Fonti