Graph Kernels per l'Interpretabilità Meccanicistica dei LLM
Un nuovo framework reinterpreta l'interpretabilità meccanicistica dei grandi modelli linguistici come un problema di machine learning su grafi. I ricercatori propongono di rappresentare i profili di attivazione-patching come grafi di effetto patch sui componenti del modello, introducendo tre metodi di costruzione del grafo: influenza diretta tramite mediazione causale, correlazione parziale e co-influenza. Applicando i graph kernel a GPT-2 Small su compiti di Identificazione di Oggetto Indiretto si mostra che i grafi di effetto patch preservano segnali strutturali discriminanti, con caratteristiche localizzate di edge-slot che raggiungono una maggiore accuratezza di classificazione rispetto ai metodi globali.
Fatti principali
- 1. arXiv:2605.06480v1
- 2. L'interpretabilità meccanicistica mira a fare reverse engineering dei calcoli dei transformer
- 3. L'attivazione-patching identifica circuiti causali
- 4. I grafi di effetto patch rappresentano i profili di attivazione-patching
- 5. Introdotti tre metodi di costruzione del grafo
- 6. Valutati su GPT-2 Small
- 7. Utilizzati compiti di Identificazione di Oggetto Indiretto (IOI)
- 8. Le caratteristiche localizzate di edge-slot superano i metodi globali
Entità
Istituzioni
- arXiv