Unpack: Un Nuovo Metodo per l'Interpretabilità Meccanicistica dei Transformer
Un approccio innovativo chiamato Unpack è stato introdotto dai ricercatori, utilizzando una tecnica di ricorsione all'indietro che scompone il credito attraverso i sottolivelli di attenzione e MLP nei transformer. Questo metodo rivela le forze di interazione tra i componenti e fornisce l'attribuzione per token da un singolo passaggio in avanti, senza richiedere interventi, gradienti o addestramento aggiuntivo. Sfrutta il template condiviso di chiave-valore φ(S)U, che è prevalente sia nei livelli di attenzione che in quelli MLP. Testato sul compito di identificazione dell'oggetto indiretto con GPT-2 small, Unpack identifica con successo tutte e tre le connessioni di composizione delineate da Wang et al. (2023), inclusa la modalità di routing specifica (K, Q o V). Inoltre, mostra l'attribuzione a livello di token analizzando due istanze dello stesso nome in una singola decomposizione. Questa ricerca è documentata nel preprint arXiv 2605.23393.
Fatti principali
- Unpack è un metodo di ricorsione all'indietro per l'interpretabilità dei transformer.
- Scompone il credito attraverso i sottolivelli di attenzione e MLP.
- Produce le forze di interazione tra due qualsiasi componenti.
- Genera l'attribuzione per token da un singolo passaggio in avanti.
- Nessun intervento, gradiente o addestramento ausiliario richiesto.
- Valutato sul compito di identificazione dell'oggetto indiretto con GPT-2 small.
- Recupera tutte e tre le connessioni di composizione da Wang et al. (2023).
- Include etichette di routing specifiche per modalità (K, Q, V).
Entità
Istituzioni
- arXiv