Circuiti di Sonda Spettrale: Identificazione dei Circuiti delle Teste di Attenzione nei Transformer
Una nuova tecnica chiamata Circuiti di Sonda Spettrale consente di identificare i circuiti delle teste di attenzione nei transformer pre-addestrati senza la necessità di etichette o gradienti di attribuzione. Questo approccio si compone di tre fasi: utilizza un segnale spettrale per testa, specificamente il rapporto di partecipazione integrato nel tempo, per valutare le teste impegnate in un calcolo sostenuto dipendente dal contenuto. Un filtro del pattern del compito restringe questo a un circuito candidato specifico per il compito, mentre l'ablazione di gruppo rispetto a un controllo casuale abbinato stabilisce la causalità. Testata su un intervallo di parametri 8x (da 51M a 1B-attivi / 7B-totali), due famiglie di architetture (dense e mistura di esperti) e quattro metodi di pre-addestramento, la tecnica identifica con successo un circuito di induzione di 2-6 teste che è causalmente essenziale in tutti i modelli esaminati, mostrando una diminuzione del 94-100% nel top-1 di induzione sintetica dopo l'ablazione. Il segnale spettrale dimostra anche capacità predittive senza supervisione; in sei prove indipendenti di un modello sonda da 51M di parametri, identifica costantemente il circuito specifico del seme.
Fatti principali
- Il metodo identifica i circuiti delle teste di attenzione nei transformer pre-addestrati
- Utilizza un segnale spettrale per testa senza etichette o gradienti di attribuzione
- Ricetta in tre fasi: classificazione spettrale, filtro del pattern del compito, ablazione di gruppo
- Validato su parametri da 51M a 1B-attivi / 7B-totali
- Testato su architetture dense e mistura di esperti
- Quattro pipeline di pre-addestramento utilizzate per la validazione
- Circuito di induzione di 2-6 teste causalmente necessario in tutti i modelli
- Calo del 94-100% nel top-1 di induzione sintetica dopo l'ablazione
- Il segnale spettrale è predittivo senza supervisione su sei semi
Entità
—