ARTFEED — Contemporary Art Intelligence

I Paper sull'Interpretabilità Meccanicistica Mancano di Ipotesi di Identificazione Causale

other · 2026-05-11

Uno studio recente pubblicato su arXiv (2605.08012) evidenzia che la ricerca sull'IA focalizzata sull'interpretabilità meccanicistica utilizza sempre più terminologia causale—come circuiti, mediatori, astrazione causale e monosemanticità—ma trascura di rivelare le ipotesi di identificazione necessarie per sostanziare le affermazioni causali. Gli autori hanno condotto una revisione mirata di 10 paper che coprono quattro approcci metodologici e hanno scoperto l'assenza di sezioni dedicate alle ipotesi di identificazione. Invece, hanno notato che metriche di validazione come fedeltà, completezza, monosemanticità, allineamento o effetti di ablazione vengono presentate come prove causali senza chiarire le ipotesi sottostanti. Un audit secondario condotto da due codificatori umani su n=30 ha confermato il risultato principale: la mancanza di sezioni di identificazione e la frequente sostituzione con metriche di validazione. Gli autori suggeriscono una norma per la divulgazione: specificare se un'affermazione è causale, identificare la strategia, elencare le ipotesi, enfatizzarne almeno una e chiarire come le conclusioni potrebbero cambiare se tali ipotesi non fossero soddisfatte.

Fatti principali

  • Paper su arXiv con ID 2605.08012
  • Revisione di 10 paper in quattro filoni metodologici
  • Nessuna sezione dedicata alle ipotesi di identificazione trovata
  • Metriche di validazione usate come supporto causale senza ipotesi
  • Audit con due codificatori umani su n=30 ha riprodotto i risultati
  • Propone una norma di divulgazione per le affermazioni causali
  • Il vocabolario causale include circuiti, mediatori, astrazione causale, monosemanticità
  • Le metriche includono fedeltà, completezza, monosemanticità, allineamento, effetti di ablazione

Entità

Istituzioni

  • arXiv

Fonti