Il Framework VIB-Probe Mira a Ridurre le Allucinazioni nei Modelli Visione-Linguaggio
Un nuovo articolo di ricerca introduce VIB-Probe, un framework progettato per rilevare e mitigare le allucinazioni nei Modelli Visione-Linguaggio. Le allucinazioni si verificano quando il testo generato si discosta dal contenuto visivo effettivo. Il metodo sfrutta la teoria del Collo di Bottiglia dell'Informazione Variazionale per filtrare il rumore semantico estraendo modelli discriminativi attraverso i livelli del modello e le teste di attenzione. Gli approcci di rilevamento esistenti spesso si basano sui logit di output o su strumenti di verifica esterni, trascurando i meccanismi interni. VIB-Probe indaga specificamente le teste di attenzione interne, postulando che alcune teste trasportino segnali primari per una generazione veritiera. La sonda diretta di questi stati ad alta dimensionalità è complessa a causa dell'intreccio tra sintassi visivo-linguistica e rumore. L'articolo è disponibile su arXiv con identificatore 2601.05547v2.
Fatti principali
- VIB-Probe è un framework di rilevamento e mitigazione delle allucinazioni per Modelli Visione-Linguaggio
- Utilizza la teoria del Collo di Bottiglia dell'Informazione Variazionale per filtrare le interferenze semantiche
- Il metodo estrae modelli discriminativi attraverso i livelli del modello e le teste di attenzione
- Le allucinazioni si riferiscono a testo generato che si discosta dal contenuto visivo sottostante
- I metodi esistenti si basano principalmente sui logit di output o su strumenti di verifica esterni
- Il framework indaga le teste di attenzione interne per segnali di generazione veritiera
- La sonda diretta di stati ad alta dimensionalità è complessa a causa dell'intreccio sintassi-rumore
- La ricerca è documentata nell'articolo arXiv 2601.05547v2
Entità
Istituzioni
- arXiv