Rivisitazione dell'Attenzione Causale per Risolvere il Disallineamento Visione-Linguaggio negli MLLM

publication · 2026-05-18

Un nuovo articolo su arXiv (2503.02597) identifica il disallineamento visione-linguaggio nei modelli linguistici multimodali di grandi dimensioni (MLLM) come una sfida critica, in cui le risposte testuali non si allineano fattualmente con gli input testo-immagine. Gli autori sostengono che la causa principale risiede nel meccanismo di attenzione causale utilizzato dai LLM solo decoder, che limita le modalità precedenti (es. immagini) dall'incorporare informazioni da modalità successive (es. testo). Propongono di rivisitare l'architettura principale per sbloccare l'attenzione mutua tra modalità, offrendo una prospettiva fondamentale oltre le soluzioni esistenti come connettori specializzati o tuning di istruzioni visive.

Fatti principali

L'articolo arXiv 2503.02597 affronta il disallineamento visione-linguaggio negli MLLM.
L'articolo sostiene che l'attenzione causale nei LLM solo decoder limita il flusso informativo cross-modale.
Le soluzioni esistenti includono connettori specializzati visione-linguaggio e tuning di istruzioni visive.
L'approccio proposto rivisita l'architettura principale per l'attenzione mutua tra modalità.
L'articolo è categorizzato come cross-post (replace-cross) su arXiv.
Gli MLLM hanno mostrato progressi nel percepire e ragionare su richieste multimodali.
Il disallineamento visione-linguaggio causa risposte testuali non fattualmente allineate con gli input.
L'articolo offre una prospettiva fondamentale sul problema del disallineamento.

Rivisitazione dell'Attenzione Causale per Risolvere il Disallineamento Visione-Linguaggio negli MLLM

Fatti principali

Entità

Istituzioni

Fonti