La ricalibrazione dell'attenzione basata su regioni riduce l'allucinazione degli oggetti nei LVLM
Una nuova strategia di inferenza senza addestramento chiamata ricalibrazione dell'attenzione basata su regioni mitiga l'allucinazione degli oggetti nei Large Vision-Language Models (LVLM). Il metodo calcola un punto medio statistico resistente agli outlier attraverso i head di attenzione per stabilire un'ancora stabile per le rappresentazioni visive, quindi utilizza il disaccordo tra i head mappato sulle regioni per determinare dinamicamente i budget di intervento. Questo approccio evita costosi fine-tuning basati sui dati, decodifica contrastiva ad alta latenza e troncamento rigido dei head di attenzione, che spesso compromettono l'efficienza computazionale o la continuità dello spazio delle caratteristiche. L'articolo è pubblicato su arXiv con ID 2605.24957.
Fatti principali
- L'allucinazione degli oggetti è una sfida persistente nei LVLM
- Gli approcci attuali includono fine-tuning basato sui dati, decodifica contrastiva e troncamento dei head di attenzione
- Il nuovo metodo è senza addestramento e al momento dell'inferenza
- Utilizza pesatura adattiva basata su regioni per correggere la deriva semantica
- Viene calcolato un punto medio statistico resistente agli outlier attraverso i head di attenzione
- Il disaccordo tra i head mappato sulle regioni determina i budget di intervento
- L'approccio evita troncamenti euristici bruschi
- L'articolo è su arXiv: 2605.24957
Entità
Istituzioni
- arXiv