ARTFEED — Contemporary Art Intelligence

Quantificazione del Trasferimento degli Iperparametri nell'Addestramento di LLM

ai-technology · 2026-05-22

Un nuovo articolo su arXiv (2605.21486) introduce un framework per quantificare il trasferimento degli iperparametri nell'addestramento di modelli linguistici di grandi dimensioni, concentrandosi sul ruolo del tasso di apprendimento del livello di embedding. Gli autori sviluppano tre metriche: qualità dell'adattamento della legge di scala, robustezza agli errori di estrapolazione e penalità asintotica della perdita dovuta alla scelta della parametrizzazione. Attraverso ablazioni complete, indagano perché la parametrizzazione Maximal Update (μP) superi la parametrizzazione standard (SP) con AdamW, scoprendo che il tasso di apprendimento del livello di embedding è un fattore critico. Lo studio colma le lacune nella teoria esistente e fornisce spunti pratici per il ridimensionamento degli iperparametri di ottimizzazione.

Fatti principali

  • Articolo arXiv 2605.21486
  • Il trasferimento degli iperparametri consente di estrapolare gli iperparametri ottimali da scale piccole a grandi
  • Tre metriche sviluppate: qualità dell'adattamento della legge di scala, robustezza agli errori di estrapolazione, penalità asintotica della perdita
  • Parametrizzazione Maximal Update (μP) confrontata con la parametrizzazione standard (SP)
  • Addestramento con ottimizzatore AdamW
  • Tasso di apprendimento del livello di embedding identificato come fattore critico
  • Studi di ablazione completi condotti
  • Teoria esistente inadeguata per spiegare i benefici di μP

Entità

Istituzioni

  • arXiv

Fonti