L'apprendimento di dizionari sparsi nell'interpretabilità meccanicistica affronta sfide teoriche
Una nuova analisi teorica dei metodi di apprendimento di dizionari sparsi (SDL) utilizzati nell'interpretabilità meccanicistica rivela problemi fondamentali. L'articolo, pubblicato su arXiv (2512.05534), esamina perché tecniche come autoencoder sparsi, transcoder e crosscoder producono caratteristiche polisemantiche, assorbimento di caratteristiche e neuroni morti. Gli autori identificano la biconvessità a tratti e i minimi spurii come ostacoli teorici chiave, mettendo in discussione l'assunzione che la SDL separi in modo affidabile i concetti sovrapposti in caratteristiche monosemantiche. Questo lavoro fornisce un quadro unificato per comprendere i limiti degli attuali strumenti di interpretabilità nelle reti neurali.
Fatti principali
- L'articolo arXiv:2512.05534 analizza l'apprendimento di dizionari sparsi nell'interpretabilità meccanicistica
- I metodi SDL includono autoencoder sparsi, transcoder e crosscoder
- Questi metodi mirano a separare i concetti sovrapposti in caratteristiche monosemantiche
- I problemi pratici includono caratteristiche polisemantiche, assorbimento di caratteristiche e neuroni morti
- L'analisi teorica identifica la biconvessità a tratti e i minimi spurii come cause
- Il lavoro offre una teoria unificata per comprendere i limiti della SDL
- Pubblicato come sostituzione di una versione precedente su arXiv
- Si concentra sugli spazi di rappresentazione delle reti neurali e sulla codifica dei concetti
Entità
Istituzioni
- arXiv