ARTFEED — Contemporary Art Intelligence

Analisi basata su grafi delle caratteristiche di autoencoder sparsi tramite kernel WL

other · 2026-05-09

Uno studio recente presenta un metodo innovativo basato su grafi per esaminare le caratteristiche degli autoencoder sparsi (SAE), passando da semplici liste di token all'identificazione di pattern complessi di co-occorrenza. In questo quadro, ogni caratteristica SAE è rappresentata come un grafo di co-occorrenza di token, dove i nodi simboleggiano token che ricorrono frequentemente vicino ad attivazioni significative, e gli archi collegano token co-occorrenti all'interno di finestre di contesto localizzate. Per misurare la similarità all'interno di questa struttura, viene utilizzato un kernel di grafo specializzato di tipo Weisfeiler-Lehman con binning delle frequenze. Questo approccio è stato dimostrato utilizzando caratteristiche di un grande SAE addestrato su GPT-2 Small, analizzato con un corpus sintetico a dominio misto, raggruppando con successo famiglie di motivi euristici come pattern ricchi di punteggiatura e gruppi specifici di lingua. I risultati sono disponibili su arXiv, con ID 2605.06494.

Fatti principali

  • Gli autoencoder sparsi (SAE) decompongono le attivazioni dei transformer in caratteristiche monosemantiche.
  • Le analisi esistenti si basano su liste di token con attivazione massima o vettori di peso del decodificatore.
  • L'articolo modella ogni caratteristica SAE come un grafo di co-occorrenza di token.
  • I nodi sono token frequenti vicino a forti attivazioni; gli archi collegano token co-occorrenti.
  • Un kernel di grafo personalizzato di tipo WL con binning delle frequenze misura la similarità.
  • La prova di concetto utilizza un grande SAE addestrato su GPT-2 Small.
  • Il corpus è sintetico e a dominio misto.
  • Il clustering recupera famiglie di motivi euristici come pattern ricchi di punteggiatura.

Entità

Istituzioni

  • arXiv

Fonti