Interventi causali nelle reti neurali possono creare rappresentazioni divergenti

ai-technology · 2026-04-25

Un nuovo studio su arXiv indaga se gli interventi causali nelle reti neurali producano rappresentazioni fuori distribuzione (divergenti), minando potenzialmente l'affidabilità delle spiegazioni di interpretabilità meccanicistica. Gli autori dimostrano sia teoricamente che empiricamente che le tecniche di intervento comuni spesso spostano le rappresentazioni interne lontano dalla distribuzione naturale. Analizzano due tipi di divergenza: quelle 'innocue' nel null-space comportamentale e quelle 'perniciose' che attivano percorsi nascosti. Il lavoro propone strategie di mitigazione per i casi perniciosi.

Fatti principali

Lo studio appare su arXiv con ID 2511.04638
Si concentra sull'interpretabilità meccanicistica delle reti neurali
Gli interventi causali possono creare rappresentazioni divergenti
Identificati due tipi di divergenza: innocua e perniciosa
Le divergenze perniciose attivano percorsi nascosti della rete
Proposte strategie di mitigazione per i casi perniciosi
Fornite prove teoriche ed empiriche
Sollevate preoccupazioni sull'affidabilità delle spiegazioni

Interventi causali nelle reti neurali possono creare rappresentazioni divergenti

Fatti principali

Entità

Istituzioni

Fonti