Calibrazione dell'Attenzione Cross-Modale Riduce le Allucinazioni nei LVLM

ai-technology · 2026-06-01

Un nuovo approccio, noto come Calibrazione dell'Attenzione Cross-Modale (CMAC), è stato sviluppato per minimizzare le allucinazioni nei grandi modelli visione-linguaggio (LVLM). Queste allucinazioni portano a discrepanze tra i dati visivi e il testo prodotto. Mentre le attuali strategie di inferenza come il decoding contrastivo affrontano il problema dell'eccessiva dipendenza dai priori linguistici, trascurano il bias posizionale e le fuorvianti correlazioni inter-modali. CMAC presenta un modulo di Decoding Inter-Modalità (IMD) che identifica e maschera i vettori di valore associati a pesi di attenzione cross-modale elevati come distorsioni, impiegando una tecnica innovativa di decoding contrastivo. Questo metodo è descritto in dettaglio in un articolo disponibile su arXiv (2501.01926v3) ed è progettato per compiti di generazione complessi in cui i LVLM incontrano difficoltà.

Fatti principali

CMAC è un metodo senza training per mitigare le allucinazioni dei LVLM.
Affronta il bias posizionale e le correlazioni spurie inter-modali.
Il modulo di Decoding Inter-Modalità maschera i vettori di valore con alta attenzione cross-modale.
L'articolo è disponibile su arXiv con ID 2501.01926v3.
I LVLM soffrono di allucinazioni in compiti di generazione complessi.
I metodi esistenti di decoding contrastivo trascurano alcune fonti di allucinazione.
CMAC utilizza un meccanismo innovativo di decoding contrastivo.
Il metodo non richiede training aggiuntivo.

Calibrazione dell'Attenzione Cross-Modale Riduce le Allucinazioni nei LVLM

Fatti principali

Entità

Istituzioni

Fonti