I Transcoders Rivelano il Grounding Visivo nei Modelli Visione-Linguaggio

ai-technology · 2026-05-25

Uno studio recente presenta i Transcoders come una tecnica per comprendere come i Modelli Visione-Linguaggio (VLM) convertono le informazioni visive in forma testuale. A differenza degli Autoencoder Sparsi (SAE), che si concentrano su rappresentazioni statiche, i Transcoders offrono un'approssimazione causale per i calcoli a livello di strato simulando i sottolivelli MLP. Quando utilizzati con Gemma 3-4B-IT, questa struttura scompone il modello in percorsi chiari che collegano i patch dell'immagine alle direzioni di generazione dei token. Le attribuzioni dei Transcoders mostrano impatti più robusti e coerenti sui token con grounding visivo durante l'ablazione dei patch rispetto a quelle degli SAE, e si allineano più strettamente con aree dell'immagine semanticamente significative. Un'analisi controfattuale del Falso Grounding Visivo conferma la specificità di questi percorsi.

Fatti principali

I Transcoders sono approssimazioni sparse dei sottolivelli MLP
Agiscono come proxy causale per il calcolo a livello di strato
Applicati a Gemma 3-4B-IT
La struttura scompone il modello in percorsi interpretabili
Collega i patch dell'immagine alle direzioni di generazione dei token
Le attribuzioni dei Transcoders superano quelle degli SAE
Migliore allineamento con regioni dell'immagine semanticamente rilevanti
L'analisi controfattuale del Falso Grounding Visivo conferma la specificità dei percorsi

Entità

—

Fonti

arXiv cs.AI — 2026-05-25