Analisi basata su grafi delle caratteristiche di autoencoder sparsi tramite kernel WL
Uno studio recente presenta un metodo innovativo basato su grafi per esaminare le caratteristiche degli autoencoder sparsi (SAE), passando da semplici liste di token all'identificazione di pattern complessi di co-occorrenza. In questo quadro, ogni caratteristica SAE è rappresentata come un grafo di co-occorrenza di token, dove i nodi simboleggiano token che ricorrono frequentemente vicino ad attivazioni significative, e gli archi collegano token co-occorrenti all'interno di finestre di contesto localizzate. Per misurare la similarità all'interno di questa struttura, viene utilizzato un kernel di grafo specializzato di tipo Weisfeiler-Lehman con binning delle frequenze. Questo approccio è stato dimostrato utilizzando caratteristiche di un grande SAE addestrato su GPT-2 Small, analizzato con un corpus sintetico a dominio misto, raggruppando con successo famiglie di motivi euristici come pattern ricchi di punteggiatura e gruppi specifici di lingua. I risultati sono disponibili su arXiv, con ID 2605.06494.
Fatti principali
- Gli autoencoder sparsi (SAE) decompongono le attivazioni dei transformer in caratteristiche monosemantiche.
- Le analisi esistenti si basano su liste di token con attivazione massima o vettori di peso del decodificatore.
- L'articolo modella ogni caratteristica SAE come un grafo di co-occorrenza di token.
- I nodi sono token frequenti vicino a forti attivazioni; gli archi collegano token co-occorrenti.
- Un kernel di grafo personalizzato di tipo WL con binning delle frequenze misura la similarità.
- La prova di concetto utilizza un grande SAE addestrato su GPT-2 Small.
- Il corpus è sintetico e a dominio misto.
- Il clustering recupera famiglie di motivi euristici come pattern ricchi di punteggiatura.
Entità
Istituzioni
- arXiv