ARTFEED — Contemporary Art Intelligence

Architettura Transformer Derivata dalla Geometria Sferica

ai-technology · 2026-05-13

Un recente studio intitolato 'RT-Transformer: The Transformer Block as a Spherical State Estimator' rivela che gli elementi fondamentali del blocco Transformer—attenzione, normalizzazione e connessioni residue—emergono naturalmente da un singolo problema di stima geometrica. I ricercatori concettualizzano lo stato latente come una direzione su un'ipersfera, con il rumore caratterizzato nel piano tangente alla stima corrente. Questo approccio porta a un metodo di inferenza direzionale pesato per precisione in cui l'attenzione aggrega le evidenze, le connessioni residue facilitano aggiornamenti incrementali dello stato e la normalizzazione riporta lo stato rivisto sull'ipersfera. Gli autori sostengono che questi componenti derivano dalla geometria del problema di stima, piuttosto che da decisioni architetturali separate. Questo lavoro è disponibile su arXiv nella sezione Computer Science > Machine Learning.

Fatti principali

  • Titolo del paper: RT-Transformer: The Transformer Block as a Spherical State Estimator
  • Pubblicato su arXiv sotto Computer Science > Machine Learning
  • Mostra che attenzione, connessioni residue e normalizzazione derivano da un problema di stima geometrica
  • Stato latente modellato come una direzione sull'ipersfera
  • Rumore definito nel piano tangente alla stima corrente
  • L'attenzione aggrega le evidenze in modo pesato per precisione
  • Le connessioni residue implementano aggiornamenti incrementali dello stato
  • La normalizzazione riporta lo stato aggiornato sull'ipersfera

Entità

Istituzioni

  • arXiv

Fonti