La fiducia nel primo token eguaglia l'autoconsistenza semantica per il rilevamento delle allucinazioni
La tecnica phi_first identifica le allucinazioni nei modelli linguistici di grandi dimensioni valutando l'entropia normalizzata dei top-K logit al primo token contenente contenuto durante un singolo decode greedy. Questo metodo eguaglia o supera le prestazioni dell'autoconsistenza semantica, che richiede campionamenti multipli e inferenze esterne. Nei test che coinvolgono tre modelli istruiti di 7-8B e due benchmark, phi_first ha registrato un AUROC medio di 0,820, mentre l'accordo semantico e l'autoconsistenza standard a livello di superficie hanno ottenuto rispettivamente 0,793 e 0,791. Inoltre, questo approccio è computazionalmente efficiente e mostra una forte correlazione con l'accordo semantico.
Fatti principali
- phi_first utilizza la fiducia nel primo token da un singolo decode greedy.
- Eguaglia o supera l'autoconsistenza semantica su QA fattuale a libro chiuso.
- AUROC medio di 0,820 contro 0,793 per l'accordo semantico e 0,791 per la forma superficiale.
- Testato su tre modelli istruiti di 7-8B e due benchmark.
- Il metodo è computazionalmente efficiente, evitando decodifiche ripetute.
- La correlazione con l'accordo semantico è da moderata a forte.
- Pubblicato su arXiv con ID 2605.05166.
- Il metodo utilizza l'entropia normalizzata dei top-K logit.
Entità
Istituzioni
- arXiv