Architettura Transformer basata su momento supera i modelli vanilla
Una nuova famiglia di architetture Transformer ispirate agli ottimizzatori, inclusa la TMMFormer a triplo momento, raggiunge una perdita di validazione inferiore rispetto al Transformer vanilla negli esperimenti di pre-addestramento. L'aggiornamento residuo di un layer Transformer pre-norm viene reinterpretato come un passo di un ottimizzatore del primo ordine su un'energia token surrogata, con i sottolayer di attenzione e MLP che agiscono come oracoli del gradiente. Ablazioni controllate e teoria indicano che il momento, non il precondizionamento, è la fonte principale del miglioramento. I design basati sul momento raggiungono anche minimi più piatti, riducendo il dimenticamento e migliorando la generalizzazione. Lo studio confronta le varianti a triplo momento, Adam/AdamW, Muon e SOAP a parità di risorse computazionali.
Fatti principali
- TMMFormer raggiunge la perdita di validazione più bassa tra i Transformer ispirati agli ottimizzatori.
- L'aggiornamento residuo è interpretato come un passo di un ottimizzatore del primo ordine su un'energia token surrogata.
- I sottolayer di attenzione e MLP funzionano come oracoli del gradiente.
- Il momento, non il precondizionamento, è la fonte principale del guadagno.
- I design basati sul momento raggiungono minimi più piatti rispetto al Transformer vanilla.
- Minimi più piatti portano a meno dimenticamento e migliore generalizzazione.
- Confrontate le varianti a triplo momento, Adam/AdamW, Muon, SOAP.
- Esperimenti condotti a parità di risorse computazionali.
Entità
Istituzioni
- arXiv