I Transcoders Rivelano il Grounding Visivo nei Modelli Visione-Linguaggio
Uno studio recente presenta i Transcoders come una tecnica per comprendere come i Modelli Visione-Linguaggio (VLM) convertono le informazioni visive in forma testuale. A differenza degli Autoencoder Sparsi (SAE), che si concentrano su rappresentazioni statiche, i Transcoders offrono un'approssimazione causale per i calcoli a livello di strato simulando i sottolivelli MLP. Quando utilizzati con Gemma 3-4B-IT, questa struttura scompone il modello in percorsi chiari che collegano i patch dell'immagine alle direzioni di generazione dei token. Le attribuzioni dei Transcoders mostrano impatti più robusti e coerenti sui token con grounding visivo durante l'ablazione dei patch rispetto a quelle degli SAE, e si allineano più strettamente con aree dell'immagine semanticamente significative. Un'analisi controfattuale del Falso Grounding Visivo conferma la specificità di questi percorsi.
Fatti principali
- I Transcoders sono approssimazioni sparse dei sottolivelli MLP
- Agiscono come proxy causale per il calcolo a livello di strato
- Applicati a Gemma 3-4B-IT
- La struttura scompone il modello in percorsi interpretabili
- Collega i patch dell'immagine alle direzioni di generazione dei token
- Le attribuzioni dei Transcoders superano quelle degli SAE
- Migliore allineamento con regioni dell'immagine semanticamente rilevanti
- L'analisi controfattuale del Falso Grounding Visivo conferma la specificità dei percorsi
Entità
—