Prima Legge Quantitativa Prevede il Ritardo di Grokking Sotto AdamW

other · 2026-05-20

I ricercatori hanno introdotto una formula innovativa per stimare il ritardo di grokking durante l'ottimizzazione AdamW, trattando il ritardo come un tempo di primo passaggio. L'equazione incorpora un singolo iperparametro cella e ha raggiunto una notevole accuratezza con un errore percentuale assoluto medio (MAPE) del 17,7% su 26 test che coprono un intervallo di 41 volte. Applicata a percettroni multistrato (MLP), ha prodotto un MAPE del 18,0% su 34 esempi, mentre scenari cross-task hanno registrato un MAPE del 23,3% su 46 casi in un intervallo di 43,5x. Un teorema del margine quantile appena stabilito suggerisce che ritardi più lunghi richiedono una separazione di norma, garantendo che V_mem superi V_star.

Fatti principali

Prima previsione quantitativa del ritardo di grokking sotto AdamW
Legge in forma chiusa: T_grok - T_mem = (1 / 2 kappa_LL eta lambda) log(V_mem / V_star)
Calibrata su singolo iperparametro cella, prevede 26 run tenuti fuori con MAPE 17,7%
Generalizza a MLP (MAPE 18,0%, N=34)
Estensione cross-task MAPE 23,3% (N=46, intervallo 43,5x)
Teorema del margine quantile: il ritardo positivo richiede separazione di norma V_mem > V_star
Il primo passaggio di V_t è necessario ma non sufficiente
V_star / V_mem stabile all'interno dell'architettura (CV ~14% su trasformatore 1L)

Entità

—

Fonti

arXiv cs.AI — 2026-05-20