Graph Kernels per l'Interpretabilità Meccanicistica dei LLM

ai-technology · 2026-05-09

Un nuovo framework reinterpreta l'interpretabilità meccanicistica dei grandi modelli linguistici come un problema di machine learning su grafi. I ricercatori propongono di rappresentare i profili di attivazione-patching come grafi di effetto patch sui componenti del modello, introducendo tre metodi di costruzione del grafo: influenza diretta tramite mediazione causale, correlazione parziale e co-influenza. Applicando i graph kernel a GPT-2 Small su compiti di Identificazione di Oggetto Indiretto si mostra che i grafi di effetto patch preservano segnali strutturali discriminanti, con caratteristiche localizzate di edge-slot che raggiungono una maggiore accuratezza di classificazione rispetto ai metodi globali.

Fatti principali

1. arXiv:2605.06480v1
2. L'interpretabilità meccanicistica mira a fare reverse engineering dei calcoli dei transformer
3. L'attivazione-patching identifica circuiti causali
4. I grafi di effetto patch rappresentano i profili di attivazione-patching
5. Introdotti tre metodi di costruzione del grafo
6. Valutati su GPT-2 Small
7. Utilizzati compiti di Identificazione di Oggetto Indiretto (IOI)
8. Le caratteristiche localizzate di edge-slot superano i metodi globali

Graph Kernels per l'Interpretabilità Meccanicistica dei LLM

Fatti principali

Entità

Istituzioni

Fonti