Punteggio di Entropia Calibrata Rileva le Allucinazioni degli LLM in un Solo Passaggio
Ehi, c'è questo nuovo metodo per individuare le allucinazioni nei modelli linguistici di grandi dimensioni che è piuttosto interessante. Richiede solo un passaggio attraverso il modello e funziona con accesso black-box ai logit dei token. Lo chiamano Punteggio di Entropia Calibrata (CES), e analizza come varia l'entropia a livello di token per rilevare statisticamente le allucinazioni. A differenza di altre tecniche che richiedono più passaggi o accesso agli stati interni, il CES combina segnali di entropia media e di picco utilizzando una funzione di distribuzione calibrata. La ricerca mostra che il comportamento dell'entropia può indicare se qualcosa è fattualmente errato. Puoi trovarlo su arXiv con il numero 2605.28264v1, e aiuta davvero con i problemi di fiducia nell'uso degli LLM in contesti importanti.
Fatti principali
- Il CES richiede un solo passaggio in avanti e accesso black-box ai logit dei token.
- La rilevazione delle allucinazioni è formalizzata come un test di ipotesi statistico.
- La forma della distribuzione dell'entropia a livello di token e il comportamento della coda indicano allucinazioni.
- Il CES combina segnali di entropia media e massima tramite una CDF di riferimento calibrata.
- I metodi esistenti richiedono tipicamente più passaggi in avanti o accesso agli interni del modello.
- L'articolo è pubblicato su arXiv con ID 2605.28264v1.
- Gli LLM spesso generano output fattualmente errati minando la fiducia.
- Contesti ad alto rischio limitano l'implementazione a causa dei rischi di allucinazione.
Entità
Istituzioni
- arXiv