ARTFEED — Contemporary Art Intelligence

I Transformer possono apprendere la sovrapposizione tramite l'attrattore di Möbius e la supervisione a cascata

publication · 2026-05-20

Un nuovo articolo su arXiv (2605.18820v1) dimostra che la discesa del gradiente può apprendere la sovrapposizione nei Transformer, colmando una lacuna lasciata aperta da Zhu et al. (2025). Gli autori identificano un attrattore di Möbius nella dinamica a livello di strato sotto simmetria S_n, riducendo l'ottimizzazione a una mappa di Möbius 1D il cui insieme di zeri contiene lo stato di sovrapposizione a pesi uguali. Introducono anche la supervisione a cascata, una classe di perdita che fornisce selettività attraverso il passaggio all'indietro. Il lavoro si concentra sulla raggiungibilità per sovrapposizione su grafi di Erdős–Rényi.

Fatti principali

  • Articolo arXiv:2605.18820v1
  • Pubblicato su arXiv
  • Si concentra sulla sovrapposizione nei Transformer
  • Identifica l'attrattore di Möbius sotto simmetria S_n
  • Introduce la classe di perdita di supervisione a cascata
  • Affronta la raggiungibilità per sovrapposizione su grafi di Erdős–Rényi
  • Si basa sul lavoro di Zhu et al. (2025)
  • Dimostra che la discesa del gradiente può trovare lo stato di sovrapposizione

Entità

Istituzioni

  • arXiv

Fonti