ARTFEED — Contemporary Art Intelligence

Lo Squilibrio delle Teste di Attenzione Guida le Allucinazioni da Conflitto Modale nei MLLM

ai-technology · 2026-05-20

Un nuovo studio su arXiv (2605.19250) indaga le allucinazioni da conflitto modale nei modelli linguistici di grandi dimensioni multimodali (MLLM), in cui i modelli privilegiano premesse testuali errate rispetto a prove visive contraddittorie. Utilizzando un'analisi causale a livello di testa tramite path patching su cinque MLLM open-source, i ricercatori hanno identificato due gruppi di teste di attenzione: quelle che guidano l'allucinazione e quelle che la contrastano. Hanno riscontrato un'asimmetria costante: gli effetti di guida sono ampiamente distribuiti con un peso aggregato maggiore, mentre gli effetti di resistenza si concentrano in poche teste di alta importanza. Esperimenti di ablazione hanno confermato che l'influenza distribuita della guida e la resistenza localizzata creano una struttura di routing sbilanciata che porta all'allucinazione. Lo studio fornisce prove causali di questo squilibrio, offrendo una spiegazione meccanicistica del perché le prove visive non prevalgono durante la generazione.

Fatti principali

  • Lo studio esamina le allucinazioni da conflitto modale nei MLLM
  • Utilizza un'analisi causale a livello di testa tramite path patching
  • Analizzati cinque MLLM open-source
  • Identificate teste di attenzione che guidano e che contrastano l'allucinazione
  • Gli effetti di guida sono ampiamente distribuiti e hanno un peso aggregato maggiore
  • Gli effetti di resistenza si concentrano in un piccolo numero di teste di alta importanza
  • Esperimenti di ablazione confermano effetti opposti durante la generazione
  • Una struttura di routing sbilanciata è alla base dell'allucinazione

Entità

Istituzioni

  • arXiv

Fonti