ARTFEED — Contemporary Art Intelligence

La ricalibrazione dell'attenzione basata su regioni riduce l'allucinazione degli oggetti nei LVLM

ai-technology · 2026-05-26

Una nuova strategia di inferenza senza addestramento chiamata ricalibrazione dell'attenzione basata su regioni mitiga l'allucinazione degli oggetti nei Large Vision-Language Models (LVLM). Il metodo calcola un punto medio statistico resistente agli outlier attraverso i head di attenzione per stabilire un'ancora stabile per le rappresentazioni visive, quindi utilizza il disaccordo tra i head mappato sulle regioni per determinare dinamicamente i budget di intervento. Questo approccio evita costosi fine-tuning basati sui dati, decodifica contrastiva ad alta latenza e troncamento rigido dei head di attenzione, che spesso compromettono l'efficienza computazionale o la continuità dello spazio delle caratteristiche. L'articolo è pubblicato su arXiv con ID 2605.24957.

Fatti principali

  • L'allucinazione degli oggetti è una sfida persistente nei LVLM
  • Gli approcci attuali includono fine-tuning basato sui dati, decodifica contrastiva e troncamento dei head di attenzione
  • Il nuovo metodo è senza addestramento e al momento dell'inferenza
  • Utilizza pesatura adattiva basata su regioni per correggere la deriva semantica
  • Viene calcolato un punto medio statistico resistente agli outlier attraverso i head di attenzione
  • Il disaccordo tra i head mappato sulle regioni determina i budget di intervento
  • L'approccio evita troncamenti euristici bruschi
  • L'articolo è su arXiv: 2605.24957

Entità

Istituzioni

  • arXiv

Fonti