Architettura Transformer Derivata dalla Geometria Sferica
Un recente studio intitolato 'RT-Transformer: The Transformer Block as a Spherical State Estimator' rivela che gli elementi fondamentali del blocco Transformer—attenzione, normalizzazione e connessioni residue—emergono naturalmente da un singolo problema di stima geometrica. I ricercatori concettualizzano lo stato latente come una direzione su un'ipersfera, con il rumore caratterizzato nel piano tangente alla stima corrente. Questo approccio porta a un metodo di inferenza direzionale pesato per precisione in cui l'attenzione aggrega le evidenze, le connessioni residue facilitano aggiornamenti incrementali dello stato e la normalizzazione riporta lo stato rivisto sull'ipersfera. Gli autori sostengono che questi componenti derivano dalla geometria del problema di stima, piuttosto che da decisioni architetturali separate. Questo lavoro è disponibile su arXiv nella sezione Computer Science > Machine Learning.
Fatti principali
- Titolo del paper: RT-Transformer: The Transformer Block as a Spherical State Estimator
- Pubblicato su arXiv sotto Computer Science > Machine Learning
- Mostra che attenzione, connessioni residue e normalizzazione derivano da un problema di stima geometrica
- Stato latente modellato come una direzione sull'ipersfera
- Rumore definito nel piano tangente alla stima corrente
- L'attenzione aggrega le evidenze in modo pesato per precisione
- Le connessioni residue implementano aggiornamenti incrementali dello stato
- La normalizzazione riporta lo stato aggiornato sull'ipersfera
Entità
Istituzioni
- arXiv