Nuovo Metodo Rileva Allucinazioni nei Passaggi di Ragionamento degli LLM
I ricercatori propongono un metodo per rilevare allucinazioni nei modelli linguistici di grandi dimensioni durante il ragionamento multi-step analizzando le traiettorie degli stati nascosti. L'approccio utilizza un insegnante condizionato dalle etichette per costruire una lente PCA contrastiva e uno studente BiLSTM per l'implementazione. Identifica il primo errore come un'escursione localizzata nel costo di trasporto da una varietà stabile di transizioni coerenti.
Fatti principali
- arXiv:2605.13772v1
- Rilevamento di allucinazioni a livello di step
- Analisi delle traiettorie degli stati nascosti
- Lente PCA contrastiva
- Modello studente BiLSTM
- Richiede un singolo passaggio in avanti
- Obiettivo di separazione del trasporto
- Localizzazione del primo errore
Entità
Istituzioni
- arXiv