Autoencoder Sparsi Residualizzati Migliorano gli Interventi su Trasformatori a Strati Multipli

ai-technology · 2026-05-28

Un nuovo metodo chiamato Autoencoder Sparsi Residualizzati (ReSAEs) è stato sviluppato dai ricercatori per addestrare autoencoder sparsi attraverso vari strati di trasformatori. Questa tecnica prevede la creazione di una mappatura affine tra gli strati e l'addestramento di autoencoder sparsi degli strati successivi sui residui che rimangono inspiegati. In questo modo, si minimizza la ridondanza nei decodificatori e si migliorano il probing sparso e la perturbazione mirata, come dimostrato nei test su Pythia-1.4B e Gemma-2-9B. Questo metodo affronta il problema delle attivazioni del flusso residuo interdipendenti a diverse profondità, che porta a dizionari di strati multipli che trasmettono informazioni identiche e provocano interazioni erratiche durante gli interventi su più strati. Le ricostruzioni vengono riconvertite nello spazio di attivazione originale tramite la catena affine stabilita, facilitando la valutazione con metodi di intervento convenzionali.

Fatti principali

1. ReSAEs adattano una mappa affine tra strati selezionati.
2. Gli SAE degli strati successivi vengono addestrati sul residuo inspiegato.
3. Le ricostruzioni vengono mappate indietro tramite la catena affine adattata.
4. Testati su Pythia-1.4B e Gemma-2-9B.
5. La residualizzazione riduce la ridondanza del decodificatore.
6. Migliora il probing sparso e la perturbazione mirata.
7. Affronta l'accoppiamento delle attivazioni del flusso residuo attraverso la profondità.
8. Consente la valutazione con protocolli di intervento standard.

Entità

—

Fonti

arXiv cs.AI — 2026-05-28