Nexusformer Introduce l'Attenzione Non Lineare per Architetture Transformer Scalabili
È stata introdotta una nuova architettura transformer denominata Nexusformer per affrontare le sfide di scalabilità dei modelli convenzionali. I transformer standard richiedono l'addestramento di varianti più grandi da zero poiché i loro meccanismi di attenzione si basano su proiezioni lineari, che limitano l'estrazione delle caratteristiche a sottospazi di dimensione fissa. Questa limitazione compromette sia l'espressività che la capacità di espandere incrementalmente le prestazioni. Nexusformer sostituisce in modo innovativo queste proiezioni lineari Q/K/V con uno strato Nexus-Rank, utilizzando una mappatura non lineare in tre fasi attivata da doppie attivazioni in spazi dimensionali progressivamente più ampi. Questo approccio elimina le restrizioni di linearità e facilita una crescita strutturata senza perdite. Nuove capacità possono essere aggiunte lungo due assi attraverso blocchi inizializzati a zero che preservano la conoscenza pre-addestrata. Gli esperimenti indicano che Nexusformer raggiunge la perplessità di Tokenformer consumando fino al 41,5% in meno di risorse computazionali per l'addestramento. I risultati sono stati pubblicati su arXiv con l'identificatore arXiv:2604.19147v1.
Fatti principali
- Nexusformer è una nuova architettura transformer progettata per una crescita scalabile
- Sostituisce le proiezioni lineari Q/K/V con uno strato Nexus-Rank utilizzando mappature non lineari
- L'architettura consente una crescita strutturata senza perdite attraverso blocchi inizializzati a zero
- Nuove capacità possono essere iniettate lungo due assi preservando la conoscenza pre-addestrata
- Gli esperimenti dimostrano che eguaglia la perplessità di Tokenformer con fino al 41,5% in meno di risorse computazionali per l'addestramento
- I transformer standard faticano a espandersi senza scartare le rappresentazioni apprese
- Il collo di bottiglia principale identificato risiede nelle proiezioni lineari del meccanismo di attenzione
- La ricerca è stata annunciata su arXiv con l'identificatore arXiv:2604.19147v1
Entità
Istituzioni
- arXiv