Calibrazione dell'Attenzione Cross-Modale Riduce le Allucinazioni nei LVLM
Un nuovo approccio, noto come Calibrazione dell'Attenzione Cross-Modale (CMAC), è stato sviluppato per minimizzare le allucinazioni nei grandi modelli visione-linguaggio (LVLM). Queste allucinazioni portano a discrepanze tra i dati visivi e il testo prodotto. Mentre le attuali strategie di inferenza come il decoding contrastivo affrontano il problema dell'eccessiva dipendenza dai priori linguistici, trascurano il bias posizionale e le fuorvianti correlazioni inter-modali. CMAC presenta un modulo di Decoding Inter-Modalità (IMD) che identifica e maschera i vettori di valore associati a pesi di attenzione cross-modale elevati come distorsioni, impiegando una tecnica innovativa di decoding contrastivo. Questo metodo è descritto in dettaglio in un articolo disponibile su arXiv (2501.01926v3) ed è progettato per compiti di generazione complessi in cui i LVLM incontrano difficoltà.
Fatti principali
- CMAC è un metodo senza training per mitigare le allucinazioni dei LVLM.
- Affronta il bias posizionale e le correlazioni spurie inter-modali.
- Il modulo di Decoding Inter-Modalità maschera i vettori di valore con alta attenzione cross-modale.
- L'articolo è disponibile su arXiv con ID 2501.01926v3.
- I LVLM soffrono di allucinazioni in compiti di generazione complessi.
- I metodi esistenti di decoding contrastivo trascurano alcune fonti di allucinazione.
- CMAC utilizza un meccanismo innovativo di decoding contrastivo.
- Il metodo non richiede training aggiuntivo.
Entità
Istituzioni
- arXiv