Metodo di sensibilità al gradiente rileva allucinazioni ostinate nei LLM
I ricercatori propongono Embedding-Perturbed Gradient Sensitivity (EPGS) per rilevare 'allucinazioni ostinate' nei grandi modelli linguistici, dove i modelli sono sicuri ma sbagliati. Il metodo sfrutta la proprietà geometrica per cui i fatti robusti giacciono in minimi piatti mentre le allucinazioni ostinate occupano minimi acuti, supportati da memorizzazione fragile. EPGS perturba gli embedding di input con rumore gaussiano e misura il conseguente picco di magnitudo del gradiente, fungendo da proxy efficiente per lo spettro dell'Hessiano. Gli esperimenti mostrano che EPGS supera significativamente le baseline basate su entropia e rappresentazione nell'identificare errori fattuali ad alta confidenza.
Fatti principali
- Le allucinazioni ostinate sono errori in cui i LLM sono sicuri ma sbagliati.
- EPGS rileva minimi acuti tramite perturbazione degli embedding con rumore gaussiano.
- I fatti robusti risiedono in minimi piatti; le allucinazioni ostinate in minimi acuti.
- EPGS misura il picco di magnitudo del gradiente come proxy per lo spettro dell'Hessiano.
- EPGS supera le baseline basate su entropia e rappresentazione.
- Il metodo fornisce un segnale robusto per rilevare errori fattuali ad alta confidenza.
- La ricerca è nell'apprendimento automatico nell'ambito dell'informatica.
- Il paper è disponibile su arXiv.
Entità
Istituzioni
- arXiv