Unpack: Un Nuovo Metodo per l'Interpretabilità Meccanicistica dei Transformer

publication · 2026-05-25

Un approccio innovativo chiamato Unpack è stato introdotto dai ricercatori, utilizzando una tecnica di ricorsione all'indietro che scompone il credito attraverso i sottolivelli di attenzione e MLP nei transformer. Questo metodo rivela le forze di interazione tra i componenti e fornisce l'attribuzione per token da un singolo passaggio in avanti, senza richiedere interventi, gradienti o addestramento aggiuntivo. Sfrutta il template condiviso di chiave-valore φ(S)U, che è prevalente sia nei livelli di attenzione che in quelli MLP. Testato sul compito di identificazione dell'oggetto indiretto con GPT-2 small, Unpack identifica con successo tutte e tre le connessioni di composizione delineate da Wang et al. (2023), inclusa la modalità di routing specifica (K, Q o V). Inoltre, mostra l'attribuzione a livello di token analizzando due istanze dello stesso nome in una singola decomposizione. Questa ricerca è documentata nel preprint arXiv 2605.23393.

Fatti principali

Unpack è un metodo di ricorsione all'indietro per l'interpretabilità dei transformer.
Scompone il credito attraverso i sottolivelli di attenzione e MLP.
Produce le forze di interazione tra due qualsiasi componenti.
Genera l'attribuzione per token da un singolo passaggio in avanti.
Nessun intervento, gradiente o addestramento ausiliario richiesto.
Valutato sul compito di identificazione dell'oggetto indiretto con GPT-2 small.
Recupera tutte e tre le connessioni di composizione da Wang et al. (2023).
Include etichette di routing specifiche per modalità (K, Q, V).

Unpack: Un Nuovo Metodo per l'Interpretabilità Meccanicistica dei Transformer

Fatti principali

Entità

Istituzioni

Fonti