ARTFEED — Contemporary Art Intelligence

Nexusformer Introduce l'Attenzione Non Lineare per Architetture Transformer Scalabili

ai-technology · 2026-04-22

È stata introdotta una nuova architettura transformer denominata Nexusformer per affrontare le sfide di scalabilità dei modelli convenzionali. I transformer standard richiedono l'addestramento di varianti più grandi da zero poiché i loro meccanismi di attenzione si basano su proiezioni lineari, che limitano l'estrazione delle caratteristiche a sottospazi di dimensione fissa. Questa limitazione compromette sia l'espressività che la capacità di espandere incrementalmente le prestazioni. Nexusformer sostituisce in modo innovativo queste proiezioni lineari Q/K/V con uno strato Nexus-Rank, utilizzando una mappatura non lineare in tre fasi attivata da doppie attivazioni in spazi dimensionali progressivamente più ampi. Questo approccio elimina le restrizioni di linearità e facilita una crescita strutturata senza perdite. Nuove capacità possono essere aggiunte lungo due assi attraverso blocchi inizializzati a zero che preservano la conoscenza pre-addestrata. Gli esperimenti indicano che Nexusformer raggiunge la perplessità di Tokenformer consumando fino al 41,5% in meno di risorse computazionali per l'addestramento. I risultati sono stati pubblicati su arXiv con l'identificatore arXiv:2604.19147v1.

Fatti principali

  • Nexusformer è una nuova architettura transformer progettata per una crescita scalabile
  • Sostituisce le proiezioni lineari Q/K/V con uno strato Nexus-Rank utilizzando mappature non lineari
  • L'architettura consente una crescita strutturata senza perdite attraverso blocchi inizializzati a zero
  • Nuove capacità possono essere iniettate lungo due assi preservando la conoscenza pre-addestrata
  • Gli esperimenti dimostrano che eguaglia la perplessità di Tokenformer con fino al 41,5% in meno di risorse computazionali per l'addestramento
  • I transformer standard faticano a espandersi senza scartare le rappresentazioni apprese
  • Il collo di bottiglia principale identificato risiede nelle proiezioni lineari del meccanismo di attenzione
  • La ricerca è stata annunciata su arXiv con l'identificatore arXiv:2604.19147v1

Entità

Istituzioni

  • arXiv

Fonti