Architettura Transformer basata su momento supera i modelli vanilla

ai-technology · 2026-05-26

Una nuova famiglia di architetture Transformer ispirate agli ottimizzatori, inclusa la TMMFormer a triplo momento, raggiunge una perdita di validazione inferiore rispetto al Transformer vanilla negli esperimenti di pre-addestramento. L'aggiornamento residuo di un layer Transformer pre-norm viene reinterpretato come un passo di un ottimizzatore del primo ordine su un'energia token surrogata, con i sottolayer di attenzione e MLP che agiscono come oracoli del gradiente. Ablazioni controllate e teoria indicano che il momento, non il precondizionamento, è la fonte principale del miglioramento. I design basati sul momento raggiungono anche minimi più piatti, riducendo il dimenticamento e migliorando la generalizzazione. Lo studio confronta le varianti a triplo momento, Adam/AdamW, Muon e SOAP a parità di risorse computazionali.

Fatti principali

TMMFormer raggiunge la perdita di validazione più bassa tra i Transformer ispirati agli ottimizzatori.
L'aggiornamento residuo è interpretato come un passo di un ottimizzatore del primo ordine su un'energia token surrogata.
I sottolayer di attenzione e MLP funzionano come oracoli del gradiente.
Il momento, non il precondizionamento, è la fonte principale del guadagno.
I design basati sul momento raggiungono minimi più piatti rispetto al Transformer vanilla.
Minimi più piatti portano a meno dimenticamento e migliore generalizzazione.
Confrontate le varianti a triplo momento, Adam/AdamW, Muon, SOAP.
Esperimenti condotti a parità di risorse computazionali.

Architettura Transformer basata su momento supera i modelli vanilla

Fatti principali

Entità

Istituzioni

Fonti