I Paper sull'Interpretabilità Meccanicistica Mancano di Ipotesi di Identificazione Causale

other · 2026-05-11

Uno studio recente pubblicato su arXiv (2605.08012) evidenzia che la ricerca sull'IA focalizzata sull'interpretabilità meccanicistica utilizza sempre più terminologia causale—come circuiti, mediatori, astrazione causale e monosemanticità—ma trascura di rivelare le ipotesi di identificazione necessarie per sostanziare le affermazioni causali. Gli autori hanno condotto una revisione mirata di 10 paper che coprono quattro approcci metodologici e hanno scoperto l'assenza di sezioni dedicate alle ipotesi di identificazione. Invece, hanno notato che metriche di validazione come fedeltà, completezza, monosemanticità, allineamento o effetti di ablazione vengono presentate come prove causali senza chiarire le ipotesi sottostanti. Un audit secondario condotto da due codificatori umani su n=30 ha confermato il risultato principale: la mancanza di sezioni di identificazione e la frequente sostituzione con metriche di validazione. Gli autori suggeriscono una norma per la divulgazione: specificare se un'affermazione è causale, identificare la strategia, elencare le ipotesi, enfatizzarne almeno una e chiarire come le conclusioni potrebbero cambiare se tali ipotesi non fossero soddisfatte.

Fatti principali

Paper su arXiv con ID 2605.08012
Revisione di 10 paper in quattro filoni metodologici
Nessuna sezione dedicata alle ipotesi di identificazione trovata
Metriche di validazione usate come supporto causale senza ipotesi
Audit con due codificatori umani su n=30 ha riprodotto i risultati
Propone una norma di divulgazione per le affermazioni causali
Il vocabolario causale include circuiti, mediatori, astrazione causale, monosemanticità
Le metriche includono fedeltà, completezza, monosemanticità, allineamento, effetti di ablazione

I Paper sull'Interpretabilità Meccanicistica Mancano di Ipotesi di Identificazione Causale

Fatti principali

Entità

Istituzioni

Fonti