Messa in discussione della capacità degli autoencoder sparsi di catturare varietà di concetti
Un nuovo quadro teorico mette in discussione l'assunzione che gli autoencoder sparsi (SAE) catturino i concetti come direzioni lineari indipendenti, proponendo invece che i concetti siano organizzati lungo varietà a bassa dimensionalità. Lo studio, pubblicato su arXiv (2604.28119), identifica due modalità di cattura delle varietà: globale, in cui un gruppo compatto di atomi copre l'intera varietà, e locale, in cui le caratteristiche piastrellano regioni ristrette. I risultati empirici mostrano che gli SAE recuperano in modo subottimale le strutture continue, mescolando le caratteristiche in modi che oscurano le relazioni geometriche. La ricerca solleva domande fondamentali sull'interpretabilità nelle rappresentazioni delle reti neurali.
Fatti principali
- Gli autoencoder sparsi sono utilizzati per estrarre caratteristiche interpretabili dalle reti neurali.
- I concetti possono essere organizzati lungo varietà a bassa dimensionalità, non come direzioni lineari indipendenti.
- Lo studio sviluppa un quadro teorico per comprendere la cattura delle varietà da parte degli SAE.
- Due modalità identificate: globale (un gruppo compatto di atomi copre l'intera varietà) e locale (le caratteristiche piastrellano regioni).
- I risultati empirici mostrano che gli SAE recuperano in modo subottimale le strutture continue.
- L'articolo è pubblicato su arXiv con ID 2604.28119.
- La ricerca mette in discussione l'assunzione implicita di direzioni concettuali lineari indipendenti.
- Il lavoro è classificato sotto intelligenza artificiale e apprendimento automatico.
Entità
Istituzioni
- arXiv