I Paper sull'Interpretabilità Meccanicistica Mancano di Ipotesi di Identificazione Causale
Uno studio recente pubblicato su arXiv (2605.08012) evidenzia che la ricerca sull'IA focalizzata sull'interpretabilità meccanicistica utilizza sempre più terminologia causale—come circuiti, mediatori, astrazione causale e monosemanticità—ma trascura di rivelare le ipotesi di identificazione necessarie per sostanziare le affermazioni causali. Gli autori hanno condotto una revisione mirata di 10 paper che coprono quattro approcci metodologici e hanno scoperto l'assenza di sezioni dedicate alle ipotesi di identificazione. Invece, hanno notato che metriche di validazione come fedeltà, completezza, monosemanticità, allineamento o effetti di ablazione vengono presentate come prove causali senza chiarire le ipotesi sottostanti. Un audit secondario condotto da due codificatori umani su n=30 ha confermato il risultato principale: la mancanza di sezioni di identificazione e la frequente sostituzione con metriche di validazione. Gli autori suggeriscono una norma per la divulgazione: specificare se un'affermazione è causale, identificare la strategia, elencare le ipotesi, enfatizzarne almeno una e chiarire come le conclusioni potrebbero cambiare se tali ipotesi non fossero soddisfatte.
Fatti principali
- Paper su arXiv con ID 2605.08012
- Revisione di 10 paper in quattro filoni metodologici
- Nessuna sezione dedicata alle ipotesi di identificazione trovata
- Metriche di validazione usate come supporto causale senza ipotesi
- Audit con due codificatori umani su n=30 ha riprodotto i risultati
- Propone una norma di divulgazione per le affermazioni causali
- Il vocabolario causale include circuiti, mediatori, astrazione causale, monosemanticità
- Le metriche includono fedeltà, completezza, monosemanticità, allineamento, effetti di ablazione
Entità
Istituzioni
- arXiv