I Transformer Possono Simulare Meccanismi di Attenzione Arbitrari
Un nuovo articolo su arXiv indaga se gli encoder dei transformer possano simulare meccanismi di attenzione arbitrari. Gli autori costruiscono un simulatore universale U composto da strati di encoder transformer in grado di replicare i calcoli di qualsiasi meccanismo di attenzione vanilla. Questo lavoro si colloca all'intersezione tra apprendibilità ed espressività, colmando un divario teorico tra garanzie probabilistiche basate sui dati e prove di computabilità deterministica. Ricerche precedenti hanno stabilito la completezza di Turing per i transformer ed esplorato i limiti della complessità circuitale e della logica formale. Lo studio fornisce un quadro teorico per comprendere i limiti computazionali delle architetture transformer.
Fatti principali
- Articolo intitolato 'On the Existence of Universal Simulators of Attention'
- Pubblicato su arXiv con ID 2506.18739
- Indaga la capacità dell'encoder transformer di simulare meccanismi di attenzione vanilla
- Costruisce un simulatore universale U composto da strati di encoder transformer
- Collega apprendibilità ed espressività nella ricerca sui transformer
- Lavori precedenti si concentravano su garanzie probabilistiche basate sui dati
- Risultati precedenti hanno dimostrato la completezza di Turing dei transformer
- Lo studio esamina la complessità circuitale e i limiti della logica formale
Entità
Istituzioni
- arXiv