ARTFEED — Contemporary Art Intelligence

Architettura Transformer basata su momento supera i modelli vanilla

ai-technology · 2026-05-26

Una nuova famiglia di architetture Transformer ispirate agli ottimizzatori, inclusa la TMMFormer a triplo momento, raggiunge una perdita di validazione inferiore rispetto al Transformer vanilla negli esperimenti di pre-addestramento. L'aggiornamento residuo di un layer Transformer pre-norm viene reinterpretato come un passo di un ottimizzatore del primo ordine su un'energia token surrogata, con i sottolayer di attenzione e MLP che agiscono come oracoli del gradiente. Ablazioni controllate e teoria indicano che il momento, non il precondizionamento, è la fonte principale del miglioramento. I design basati sul momento raggiungono anche minimi più piatti, riducendo il dimenticamento e migliorando la generalizzazione. Lo studio confronta le varianti a triplo momento, Adam/AdamW, Muon e SOAP a parità di risorse computazionali.

Fatti principali

  • TMMFormer raggiunge la perdita di validazione più bassa tra i Transformer ispirati agli ottimizzatori.
  • L'aggiornamento residuo è interpretato come un passo di un ottimizzatore del primo ordine su un'energia token surrogata.
  • I sottolayer di attenzione e MLP funzionano come oracoli del gradiente.
  • Il momento, non il precondizionamento, è la fonte principale del guadagno.
  • I design basati sul momento raggiungono minimi più piatti rispetto al Transformer vanilla.
  • Minimi più piatti portano a meno dimenticamento e migliore generalizzazione.
  • Confrontate le varianti a triplo momento, Adam/AdamW, Muon, SOAP.
  • Esperimenti condotti a parità di risorse computazionali.

Entità

Istituzioni

  • arXiv

Fonti