Nuova Parametrizzazione Consente il Trasferimento del Tasso di Apprendimento nei Transformer Normalizzati
I ricercatori hanno sviluppato νGPT, una nuova parametrizzazione per i Transformer Normalizzati (nGPT) che realizza il trasferimento del tasso di apprendimento attraverso larghezza, profondità e orizzonte temporale. L'nGPT originale, introdotto in arXiv:2410.01131, offre notevoli accelerazioni nell'addestramento senza decadimento del peso o riscaldamento del tasso di apprendimento, ma non riesce a trasferire i tassi di apprendimento tra dimensioni del modello e orizzonti temporali. Combinando esperimenti numerici con esponenti di allineamento da arXiv:2407.05872, il team ha modificato l'approccio μP per il trasferimento degli iperparametri (arXiv:2011.14522). Un'ampia validazione empirica mostra che νGPT presenta con successo il trasferimento del tasso di apprendimento, affrontando una limitazione chiave di nGPT.
Fatti principali
- νGPT è una nuova parametrizzazione per i Transformer Normalizzati (nGPT).
- nGPT è stato introdotto in arXiv:2410.01131.
- nGPT raggiunge accelerazioni nell'addestramento senza decadimento del peso o riscaldamento del tasso di apprendimento.
- nGPT non presentava trasferimento del tasso di apprendimento attraverso la dimensione del modello e l'orizzonte temporale.
- La ricerca combina esperimenti numerici con esponenti di allineamento (arXiv:2407.05872).
- L'approccio μP per il trasferimento degli iperparametri (arXiv:2011.14522) è stato modificato.
- νGPT presenta trasferimento del tasso di apprendimento attraverso larghezza, profondità e orizzonte temporale.
- Un'ampia validazione empirica supporta i risultati.
Entità
Istituzioni
- arXiv