ARTFEED — Contemporary Art Intelligence

I Transcoders Rivelano il Grounding Visivo nei Modelli Visione-Linguaggio

ai-technology · 2026-05-25

Uno studio recente presenta i Transcoders come una tecnica per comprendere come i Modelli Visione-Linguaggio (VLM) convertono le informazioni visive in forma testuale. A differenza degli Autoencoder Sparsi (SAE), che si concentrano su rappresentazioni statiche, i Transcoders offrono un'approssimazione causale per i calcoli a livello di strato simulando i sottolivelli MLP. Quando utilizzati con Gemma 3-4B-IT, questa struttura scompone il modello in percorsi chiari che collegano i patch dell'immagine alle direzioni di generazione dei token. Le attribuzioni dei Transcoders mostrano impatti più robusti e coerenti sui token con grounding visivo durante l'ablazione dei patch rispetto a quelle degli SAE, e si allineano più strettamente con aree dell'immagine semanticamente significative. Un'analisi controfattuale del Falso Grounding Visivo conferma la specificità di questi percorsi.

Fatti principali

  • I Transcoders sono approssimazioni sparse dei sottolivelli MLP
  • Agiscono come proxy causale per il calcolo a livello di strato
  • Applicati a Gemma 3-4B-IT
  • La struttura scompone il modello in percorsi interpretabili
  • Collega i patch dell'immagine alle direzioni di generazione dei token
  • Le attribuzioni dei Transcoders superano quelle degli SAE
  • Migliore allineamento con regioni dell'immagine semanticamente rilevanti
  • L'analisi controfattuale del Falso Grounding Visivo conferma la specificità dei percorsi

Entità

Fonti