Nuovo Metodo Rileva Allucinazioni nei Passaggi di Ragionamento degli LLM

other · 2026-05-14

I ricercatori propongono un metodo per rilevare allucinazioni nei modelli linguistici di grandi dimensioni durante il ragionamento multi-step analizzando le traiettorie degli stati nascosti. L'approccio utilizza un insegnante condizionato dalle etichette per costruire una lente PCA contrastiva e uno studente BiLSTM per l'implementazione. Identifica il primo errore come un'escursione localizzata nel costo di trasporto da una varietà stabile di transizioni coerenti.

Fatti principali

arXiv:2605.13772v1
Rilevamento di allucinazioni a livello di step
Analisi delle traiettorie degli stati nascosti
Lente PCA contrastiva
Modello studente BiLSTM
Richiede un singolo passaggio in avanti
Obiettivo di separazione del trasporto
Localizzazione del primo errore

Nuovo Metodo Rileva Allucinazioni nei Passaggi di Ragionamento degli LLM

Fatti principali

Entità

Istituzioni

Fonti