ARTFEED — Contemporary Art Intelligence

Prima Legge Quantitativa Prevede il Ritardo di Grokking Sotto AdamW

other · 2026-05-20

I ricercatori hanno introdotto una formula innovativa per stimare il ritardo di grokking durante l'ottimizzazione AdamW, trattando il ritardo come un tempo di primo passaggio. L'equazione incorpora un singolo iperparametro cella e ha raggiunto una notevole accuratezza con un errore percentuale assoluto medio (MAPE) del 17,7% su 26 test che coprono un intervallo di 41 volte. Applicata a percettroni multistrato (MLP), ha prodotto un MAPE del 18,0% su 34 esempi, mentre scenari cross-task hanno registrato un MAPE del 23,3% su 46 casi in un intervallo di 43,5x. Un teorema del margine quantile appena stabilito suggerisce che ritardi più lunghi richiedono una separazione di norma, garantendo che V_mem superi V_star.

Fatti principali

  • Prima previsione quantitativa del ritardo di grokking sotto AdamW
  • Legge in forma chiusa: T_grok - T_mem = (1 / 2 kappa_LL eta lambda) log(V_mem / V_star)
  • Calibrata su singolo iperparametro cella, prevede 26 run tenuti fuori con MAPE 17,7%
  • Generalizza a MLP (MAPE 18,0%, N=34)
  • Estensione cross-task MAPE 23,3% (N=46, intervallo 43,5x)
  • Teorema del margine quantile: il ritardo positivo richiede separazione di norma V_mem > V_star
  • Il primo passaggio di V_t è necessario ma non sufficiente
  • V_star / V_mem stabile all'interno dell'architettura (CV ~14% su trasformatore 1L)

Entità

Fonti