I Transformer possono apprendere la sovrapposizione tramite l'attrattore di Möbius e la supervisione a cascata

publication · 2026-05-20

Un nuovo articolo su arXiv (2605.18820v1) dimostra che la discesa del gradiente può apprendere la sovrapposizione nei Transformer, colmando una lacuna lasciata aperta da Zhu et al. (2025). Gli autori identificano un attrattore di Möbius nella dinamica a livello di strato sotto simmetria S_n, riducendo l'ottimizzazione a una mappa di Möbius 1D il cui insieme di zeri contiene lo stato di sovrapposizione a pesi uguali. Introducono anche la supervisione a cascata, una classe di perdita che fornisce selettività attraverso il passaggio all'indietro. Il lavoro si concentra sulla raggiungibilità per sovrapposizione su grafi di Erdős–Rényi.

Fatti principali

Articolo arXiv:2605.18820v1
Pubblicato su arXiv
Si concentra sulla sovrapposizione nei Transformer
Identifica l'attrattore di Möbius sotto simmetria S_n
Introduce la classe di perdita di supervisione a cascata
Affronta la raggiungibilità per sovrapposizione su grafi di Erdős–Rényi
Si basa sul lavoro di Zhu et al. (2025)
Dimostra che la discesa del gradiente può trovare lo stato di sovrapposizione

I Transformer possono apprendere la sovrapposizione tramite l'attrattore di Möbius e la supervisione a cascata

Fatti principali

Entità

Istituzioni

Fonti