La ricerca rivela come i modelli visione-linguaggio allucinino privilegiando i prompt testuali rispetto all'evidenza visiva

ai-technology · 2026-04-20

Un nuovo studio esamina come i grandi modelli visione-linguaggio (VLMs) producano allucinazioni dando priorità ai prompt testuali rispetto al contenuto visivo effettivo. I ricercatori hanno studiato questo fallimento in uno scenario controllato di conteggio oggetti, dove i prompt esageravano il numero di oggetti nelle immagini. Quando i conteggi degli oggetti erano bassi, i modelli correggessero frequentemente le sovrastime, ma con l'aumentare dei numeri, si conformavano sempre più ai prompt fuorvianti nonostante le contraddizioni visive. Attraverso un'analisi meccanicistica di tre VLMs, gli scienziati hanno identificato un piccolo gruppo di testine di attenzione responsabili di queste allucinazioni indotte da prompt. L'ablazione di queste specifiche testine ha ridotto le allucinazioni di almeno il 40% senza richiedere addestramento aggiuntivo. La ricerca dimostra che queste PIH-heads facilitano la copia dei prompt in modi distinti tra i diversi modelli. Questa tecnica di ablazione ha migliorato la correzione verso l'evidenza visiva. I risultati forniscono approfondimenti sui meccanismi interni che guidano questi errori nei modelli visione-linguaggio.

Fatti principali

I grandi modelli visione-linguaggio spesso allucinano privilegiando i prompt testuali rispetto all'evidenza visiva
Lo studio ha utilizzato un'impostazione controllata di conteggio oggetti con prompt che sovrastimavano i conteggi
I modelli correggessero le sovrastime a bassi conteggi di oggetti ma si conformavano ai prompt a conteggi più elevati
L'analisi meccanicistica ha identificato specifiche testine di attenzione che causano allucinazioni indotte da prompt
L'ablazione di queste testine ha ridotto le allucinazioni di almeno il 40% senza addestramento aggiuntivo
Le PIH-heads mediano la copia dei prompt in modi specifici del modello tra diversi VLMs
L'ablazione ha aumentato la correzione verso l'evidenza visiva nei modelli
La ricerca offre approfondimenti sui meccanismi interni dei fallimenti dei modelli visione-linguaggio

Entità

—

Fonti

arXiv cs.AI — 2026-04-20