Nuova Parametrizzazione Consente il Trasferimento del Tasso di Apprendimento nei Transformer Normalizzati

ai-technology · 2026-05-01

I ricercatori hanno sviluppato νGPT, una nuova parametrizzazione per i Transformer Normalizzati (nGPT) che realizza il trasferimento del tasso di apprendimento attraverso larghezza, profondità e orizzonte temporale. L'nGPT originale, introdotto in arXiv:2410.01131, offre notevoli accelerazioni nell'addestramento senza decadimento del peso o riscaldamento del tasso di apprendimento, ma non riesce a trasferire i tassi di apprendimento tra dimensioni del modello e orizzonti temporali. Combinando esperimenti numerici con esponenti di allineamento da arXiv:2407.05872, il team ha modificato l'approccio μP per il trasferimento degli iperparametri (arXiv:2011.14522). Un'ampia validazione empirica mostra che νGPT presenta con successo il trasferimento del tasso di apprendimento, affrontando una limitazione chiave di nGPT.

Fatti principali

νGPT è una nuova parametrizzazione per i Transformer Normalizzati (nGPT).
nGPT è stato introdotto in arXiv:2410.01131.
nGPT raggiunge accelerazioni nell'addestramento senza decadimento del peso o riscaldamento del tasso di apprendimento.
nGPT non presentava trasferimento del tasso di apprendimento attraverso la dimensione del modello e l'orizzonte temporale.
La ricerca combina esperimenti numerici con esponenti di allineamento (arXiv:2407.05872).
L'approccio μP per il trasferimento degli iperparametri (arXiv:2011.14522) è stato modificato.
νGPT presenta trasferimento del tasso di apprendimento attraverso larghezza, profondità e orizzonte temporale.
Un'ampia validazione empirica supporta i risultati.

Nuova Parametrizzazione Consente il Trasferimento del Tasso di Apprendimento nei Transformer Normalizzati

Fatti principali

Entità

Istituzioni

Fonti