Architettura Transformer Derivata dalla Geometria Sferica

ai-technology · 2026-05-13

Un recente studio intitolato 'RT-Transformer: The Transformer Block as a Spherical State Estimator' rivela che gli elementi fondamentali del blocco Transformer—attenzione, normalizzazione e connessioni residue—emergono naturalmente da un singolo problema di stima geometrica. I ricercatori concettualizzano lo stato latente come una direzione su un'ipersfera, con il rumore caratterizzato nel piano tangente alla stima corrente. Questo approccio porta a un metodo di inferenza direzionale pesato per precisione in cui l'attenzione aggrega le evidenze, le connessioni residue facilitano aggiornamenti incrementali dello stato e la normalizzazione riporta lo stato rivisto sull'ipersfera. Gli autori sostengono che questi componenti derivano dalla geometria del problema di stima, piuttosto che da decisioni architetturali separate. Questo lavoro è disponibile su arXiv nella sezione Computer Science > Machine Learning.

Fatti principali

Titolo del paper: RT-Transformer: The Transformer Block as a Spherical State Estimator
Pubblicato su arXiv sotto Computer Science > Machine Learning
Mostra che attenzione, connessioni residue e normalizzazione derivano da un problema di stima geometrica
Stato latente modellato come una direzione sull'ipersfera
Rumore definito nel piano tangente alla stima corrente
L'attenzione aggrega le evidenze in modo pesato per precisione
Le connessioni residue implementano aggiornamenti incrementali dello stato
La normalizzazione riporta lo stato aggiornato sull'ipersfera

Architettura Transformer Derivata dalla Geometria Sferica

Fatti principali

Entità

Istituzioni

Fonti