ARTFEED — Contemporary Art Intelligence

Graph Kernels per l'Interpretabilità Meccanicistica dei LLM

ai-technology · 2026-05-09

Un nuovo framework reinterpreta l'interpretabilità meccanicistica dei grandi modelli linguistici come un problema di machine learning su grafi. I ricercatori propongono di rappresentare i profili di attivazione-patching come grafi di effetto patch sui componenti del modello, introducendo tre metodi di costruzione del grafo: influenza diretta tramite mediazione causale, correlazione parziale e co-influenza. Applicando i graph kernel a GPT-2 Small su compiti di Identificazione di Oggetto Indiretto si mostra che i grafi di effetto patch preservano segnali strutturali discriminanti, con caratteristiche localizzate di edge-slot che raggiungono una maggiore accuratezza di classificazione rispetto ai metodi globali.

Fatti principali

  • 1. arXiv:2605.06480v1
  • 2. L'interpretabilità meccanicistica mira a fare reverse engineering dei calcoli dei transformer
  • 3. L'attivazione-patching identifica circuiti causali
  • 4. I grafi di effetto patch rappresentano i profili di attivazione-patching
  • 5. Introdotti tre metodi di costruzione del grafo
  • 6. Valutati su GPT-2 Small
  • 7. Utilizzati compiti di Identificazione di Oggetto Indiretto (IOI)
  • 8. Le caratteristiche localizzate di edge-slot superano i metodi globali

Entità

Istituzioni

  • arXiv

Fonti