La ricalibrazione dell'attenzione basata su regioni riduce l'allucinazione degli oggetti nei LVLM

ai-technology · 2026-05-26

Una nuova strategia di inferenza senza addestramento chiamata ricalibrazione dell'attenzione basata su regioni mitiga l'allucinazione degli oggetti nei Large Vision-Language Models (LVLM). Il metodo calcola un punto medio statistico resistente agli outlier attraverso i head di attenzione per stabilire un'ancora stabile per le rappresentazioni visive, quindi utilizza il disaccordo tra i head mappato sulle regioni per determinare dinamicamente i budget di intervento. Questo approccio evita costosi fine-tuning basati sui dati, decodifica contrastiva ad alta latenza e troncamento rigido dei head di attenzione, che spesso compromettono l'efficienza computazionale o la continuità dello spazio delle caratteristiche. L'articolo è pubblicato su arXiv con ID 2605.24957.

Fatti principali

L'allucinazione degli oggetti è una sfida persistente nei LVLM
Gli approcci attuali includono fine-tuning basato sui dati, decodifica contrastiva e troncamento dei head di attenzione
Il nuovo metodo è senza addestramento e al momento dell'inferenza
Utilizza pesatura adattiva basata su regioni per correggere la deriva semantica
Viene calcolato un punto medio statistico resistente agli outlier attraverso i head di attenzione
Il disaccordo tra i head mappato sulle regioni determina i budget di intervento
L'approccio evita troncamenti euristici bruschi
L'articolo è su arXiv: 2605.24957

La ricalibrazione dell'attenzione basata su regioni riduce l'allucinazione degli oggetti nei LVLM

Fatti principali

Entità

Istituzioni

Fonti