La fiducia nel primo token eguaglia l'autoconsistenza semantica per il rilevamento delle allucinazioni

other · 2026-05-07

La tecnica phi_first identifica le allucinazioni nei modelli linguistici di grandi dimensioni valutando l'entropia normalizzata dei top-K logit al primo token contenente contenuto durante un singolo decode greedy. Questo metodo eguaglia o supera le prestazioni dell'autoconsistenza semantica, che richiede campionamenti multipli e inferenze esterne. Nei test che coinvolgono tre modelli istruiti di 7-8B e due benchmark, phi_first ha registrato un AUROC medio di 0,820, mentre l'accordo semantico e l'autoconsistenza standard a livello di superficie hanno ottenuto rispettivamente 0,793 e 0,791. Inoltre, questo approccio è computazionalmente efficiente e mostra una forte correlazione con l'accordo semantico.

Fatti principali

phi_first utilizza la fiducia nel primo token da un singolo decode greedy.
Eguaglia o supera l'autoconsistenza semantica su QA fattuale a libro chiuso.
AUROC medio di 0,820 contro 0,793 per l'accordo semantico e 0,791 per la forma superficiale.
Testato su tre modelli istruiti di 7-8B e due benchmark.
Il metodo è computazionalmente efficiente, evitando decodifiche ripetute.
La correlazione con l'accordo semantico è da moderata a forte.
Pubblicato su arXiv con ID 2605.05166.
Il metodo utilizza l'entropia normalizzata dei top-K logit.

La fiducia nel primo token eguaglia l'autoconsistenza semantica per il rilevamento delle allucinazioni

Fatti principali

Entità

Istituzioni

Fonti