Quantificazione del Trasferimento degli Iperparametri nell'Addestramento di LLM

ai-technology · 2026-05-22

Un nuovo articolo su arXiv (2605.21486) introduce un framework per quantificare il trasferimento degli iperparametri nell'addestramento di modelli linguistici di grandi dimensioni, concentrandosi sul ruolo del tasso di apprendimento del livello di embedding. Gli autori sviluppano tre metriche: qualità dell'adattamento della legge di scala, robustezza agli errori di estrapolazione e penalità asintotica della perdita dovuta alla scelta della parametrizzazione. Attraverso ablazioni complete, indagano perché la parametrizzazione Maximal Update (μP) superi la parametrizzazione standard (SP) con AdamW, scoprendo che il tasso di apprendimento del livello di embedding è un fattore critico. Lo studio colma le lacune nella teoria esistente e fornisce spunti pratici per il ridimensionamento degli iperparametri di ottimizzazione.

Fatti principali

Articolo arXiv 2605.21486
Il trasferimento degli iperparametri consente di estrapolare gli iperparametri ottimali da scale piccole a grandi
Tre metriche sviluppate: qualità dell'adattamento della legge di scala, robustezza agli errori di estrapolazione, penalità asintotica della perdita
Parametrizzazione Maximal Update (μP) confrontata con la parametrizzazione standard (SP)
Addestramento con ottimizzatore AdamW
Tasso di apprendimento del livello di embedding identificato come fattore critico
Studi di ablazione completi condotti
Teoria esistente inadeguata per spiegare i benefici di μP

Quantificazione del Trasferimento degli Iperparametri nell'Addestramento di LLM

Fatti principali

Entità

Istituzioni

Fonti