Punteggio di Entropia Calibrata Rileva le Allucinazioni degli LLM in un Solo Passaggio

ai-technology · 2026-05-28

Ehi, c'è questo nuovo metodo per individuare le allucinazioni nei modelli linguistici di grandi dimensioni che è piuttosto interessante. Richiede solo un passaggio attraverso il modello e funziona con accesso black-box ai logit dei token. Lo chiamano Punteggio di Entropia Calibrata (CES), e analizza come varia l'entropia a livello di token per rilevare statisticamente le allucinazioni. A differenza di altre tecniche che richiedono più passaggi o accesso agli stati interni, il CES combina segnali di entropia media e di picco utilizzando una funzione di distribuzione calibrata. La ricerca mostra che il comportamento dell'entropia può indicare se qualcosa è fattualmente errato. Puoi trovarlo su arXiv con il numero 2605.28264v1, e aiuta davvero con i problemi di fiducia nell'uso degli LLM in contesti importanti.

Fatti principali

Il CES richiede un solo passaggio in avanti e accesso black-box ai logit dei token.
La rilevazione delle allucinazioni è formalizzata come un test di ipotesi statistico.
La forma della distribuzione dell'entropia a livello di token e il comportamento della coda indicano allucinazioni.
Il CES combina segnali di entropia media e massima tramite una CDF di riferimento calibrata.
I metodi esistenti richiedono tipicamente più passaggi in avanti o accesso agli interni del modello.
L'articolo è pubblicato su arXiv con ID 2605.28264v1.
Gli LLM spesso generano output fattualmente errati minando la fiducia.
Contesti ad alto rischio limitano l'implementazione a causa dei rischi di allucinazione.

Punteggio di Entropia Calibrata Rileva le Allucinazioni degli LLM in un Solo Passaggio

Fatti principali

Entità

Istituzioni

Fonti