Interventi causali nelle reti neurali possono creare rappresentazioni divergenti
Un nuovo studio su arXiv indaga se gli interventi causali nelle reti neurali producano rappresentazioni fuori distribuzione (divergenti), minando potenzialmente l'affidabilità delle spiegazioni di interpretabilità meccanicistica. Gli autori dimostrano sia teoricamente che empiricamente che le tecniche di intervento comuni spesso spostano le rappresentazioni interne lontano dalla distribuzione naturale. Analizzano due tipi di divergenza: quelle 'innocue' nel null-space comportamentale e quelle 'perniciose' che attivano percorsi nascosti. Il lavoro propone strategie di mitigazione per i casi perniciosi.
Fatti principali
- Lo studio appare su arXiv con ID 2511.04638
- Si concentra sull'interpretabilità meccanicistica delle reti neurali
- Gli interventi causali possono creare rappresentazioni divergenti
- Identificati due tipi di divergenza: innocua e perniciosa
- Le divergenze perniciose attivano percorsi nascosti della rete
- Proposte strategie di mitigazione per i casi perniciosi
- Fornite prove teoriche ed empiriche
- Sollevate preoccupazioni sull'affidabilità delle spiegazioni
Entità
Istituzioni
- arXiv