Nexusformer Introduce l'Attenzione Non Lineare per Architetture Transformer Scalabili

ai-technology · 2026-04-22

È stata introdotta una nuova architettura transformer denominata Nexusformer per affrontare le sfide di scalabilità dei modelli convenzionali. I transformer standard richiedono l'addestramento di varianti più grandi da zero poiché i loro meccanismi di attenzione si basano su proiezioni lineari, che limitano l'estrazione delle caratteristiche a sottospazi di dimensione fissa. Questa limitazione compromette sia l'espressività che la capacità di espandere incrementalmente le prestazioni. Nexusformer sostituisce in modo innovativo queste proiezioni lineari Q/K/V con uno strato Nexus-Rank, utilizzando una mappatura non lineare in tre fasi attivata da doppie attivazioni in spazi dimensionali progressivamente più ampi. Questo approccio elimina le restrizioni di linearità e facilita una crescita strutturata senza perdite. Nuove capacità possono essere aggiunte lungo due assi attraverso blocchi inizializzati a zero che preservano la conoscenza pre-addestrata. Gli esperimenti indicano che Nexusformer raggiunge la perplessità di Tokenformer consumando fino al 41,5% in meno di risorse computazionali per l'addestramento. I risultati sono stati pubblicati su arXiv con l'identificatore arXiv:2604.19147v1.

Fatti principali

Nexusformer è una nuova architettura transformer progettata per una crescita scalabile
Sostituisce le proiezioni lineari Q/K/V con uno strato Nexus-Rank utilizzando mappature non lineari
L'architettura consente una crescita strutturata senza perdite attraverso blocchi inizializzati a zero
Nuove capacità possono essere iniettate lungo due assi preservando la conoscenza pre-addestrata
Gli esperimenti dimostrano che eguaglia la perplessità di Tokenformer con fino al 41,5% in meno di risorse computazionali per l'addestramento
I transformer standard faticano a espandersi senza scartare le rappresentazioni apprese
Il collo di bottiglia principale identificato risiede nelle proiezioni lineari del meccanismo di attenzione
La ricerca è stata annunciata su arXiv con l'identificatore arXiv:2604.19147v1

Nexusformer Introduce l'Attenzione Non Lineare per Architetture Transformer Scalabili

Fatti principali

Entità

Istituzioni

Fonti