QAOD: Rilevamento di allucinazioni in un unico passaggio per LLM tramite decomposizione ortogonale
Un nuovo framework chiamato QAOD (Question-Answer Orthogonal Decomposition) è stato introdotto dai ricercatori per identificare le allucinazioni nei modelli linguistici di grandi dimensioni (LLM) attraverso un approccio a passaggio singolo. Questo metodo estrae una componente ortogonale alla domanda proiettando la direzione allineata alla domanda lontano dalla rappresentazione della risposta, minimizzando così le variazioni condizionate dal dominio. La selezione dei layer viene effettuata utilizzando il punteggio Fisher con penalità di diversità, mentre i neuroni discriminativi vengono identificati in base all'importanza di Fisher. Vengono implementate due strategie di probing: una combina la componente ortogonale con il contesto della domanda per creare un probe congiunto. L'obiettivo di questo approccio è migliorare l'accuratezza, l'efficienza e la resilienza ai cambiamenti di distribuzione, facilitando sia il rilevamento intra-dominio che la generalizzazione cross-dominio. La ricerca è disponibile su arXiv (2605.14449).
Fatti principali
- 1. QAOD sta per Question-Answer Orthogonal Decomposition.
- 2. È un framework a passaggio singolo per il rilevamento di allucinazioni negli LLM.
- 3. Il metodo proietta la direzione allineata alla domanda lontano dalla rappresentazione della risposta.
- 4. Utilizza il punteggio Fisher con penalità di diversità per la selezione dei layer.
- 5. Utilizza l'importanza di Fisher per la selezione dei neuroni.
- 6. Vengono progettate due strategie di probing complementari.
- 7. L'approccio affronta il rilevamento intra-dominio e la generalizzazione cross-dominio.
- 8. L'articolo è disponibile su arXiv con ID 2605.14449.
Entità
Istituzioni
- arXiv