Il quadro geometrico rivela l'instabilità nel controllo delle caratteristiche degli autoencoder sparsi

ai-technology · 2026-05-09

Un recente studio teorico pubblicato su arXiv (2605.05223) esamina l'instabilità strutturale associata alla composizione delle caratteristiche negli Autoencoder Sparsi (SAE). Sebbene gli SAE facilitino il disaccoppiamento della sovrapposizione delle caratteristiche nei transformer e consentano il controllo dell'attivazione, la ricerca indica che attivare più latenti semantici contemporaneamente può portare a un collasso compositivo. Gli autori concettualizzano lo spazio di attivazione come una varietà a cono sparso ad alta dimensionalità e stabiliscono una soglia asintotica per il collasso utilizzando un modello di dizionario sferico, definita dalla larghezza media gaussiana del cono del segnale. Inoltre, rivelano che la rettifica ReLU trasforma le fluttuazioni di varianza indotte dalla correlazione in bias sistematici, esacerbando l'instabilità delle unioni di caratteristiche. Questo studio mette in discussione l'Ipotesi di Rappresentazione Lineare rivelando effetti di interferenza non lineare in dizionari sovracompleti.

Fatti principali

Articolo su arXiv:2605.05223
Autoencoder Sparsi (SAE) utilizzati per il disaccoppiamento delle caratteristiche nei transformer
Il controllo compositivo implica l'attivazione simultanea di diversi latenti semantici
L'Ipotesi di Rappresentazione Lineare astrae gli effetti di interferenza non lineare
Il quadro geometrico modella lo spazio di attivazione come una varietà a cono sparso
Soglia asintotica di collasso compositivo derivata sotto il modello di dizionario sferico
Soglia caratterizzata dalla larghezza media gaussiana del cono del segnale
La rettifica ReLU converte le fluttuazioni di varianza in bias nel regime ad alto bias

Il quadro geometrico rivela l'instabilità nel controllo delle caratteristiche degli autoencoder sparsi

Fatti principali

Entità

Istituzioni

Fonti