ARTFEED — Contemporary Art Intelligence

Nuova Parametrizzazione Consente il Trasferimento del Tasso di Apprendimento nei Transformer Normalizzati

ai-technology · 2026-05-01

I ricercatori hanno sviluppato νGPT, una nuova parametrizzazione per i Transformer Normalizzati (nGPT) che realizza il trasferimento del tasso di apprendimento attraverso larghezza, profondità e orizzonte temporale. L'nGPT originale, introdotto in arXiv:2410.01131, offre notevoli accelerazioni nell'addestramento senza decadimento del peso o riscaldamento del tasso di apprendimento, ma non riesce a trasferire i tassi di apprendimento tra dimensioni del modello e orizzonti temporali. Combinando esperimenti numerici con esponenti di allineamento da arXiv:2407.05872, il team ha modificato l'approccio μP per il trasferimento degli iperparametri (arXiv:2011.14522). Un'ampia validazione empirica mostra che νGPT presenta con successo il trasferimento del tasso di apprendimento, affrontando una limitazione chiave di nGPT.

Fatti principali

  • νGPT è una nuova parametrizzazione per i Transformer Normalizzati (nGPT).
  • nGPT è stato introdotto in arXiv:2410.01131.
  • nGPT raggiunge accelerazioni nell'addestramento senza decadimento del peso o riscaldamento del tasso di apprendimento.
  • nGPT non presentava trasferimento del tasso di apprendimento attraverso la dimensione del modello e l'orizzonte temporale.
  • La ricerca combina esperimenti numerici con esponenti di allineamento (arXiv:2407.05872).
  • L'approccio μP per il trasferimento degli iperparametri (arXiv:2011.14522) è stato modificato.
  • νGPT presenta trasferimento del tasso di apprendimento attraverso larghezza, profondità e orizzonte temporale.
  • Un'ampia validazione empirica supporta i risultati.

Entità

Istituzioni

  • arXiv

Fonti