Prima Legge Quantitativa Prevede il Ritardo di Grokking Sotto AdamW
I ricercatori hanno introdotto una formula innovativa per stimare il ritardo di grokking durante l'ottimizzazione AdamW, trattando il ritardo come un tempo di primo passaggio. L'equazione incorpora un singolo iperparametro cella e ha raggiunto una notevole accuratezza con un errore percentuale assoluto medio (MAPE) del 17,7% su 26 test che coprono un intervallo di 41 volte. Applicata a percettroni multistrato (MLP), ha prodotto un MAPE del 18,0% su 34 esempi, mentre scenari cross-task hanno registrato un MAPE del 23,3% su 46 casi in un intervallo di 43,5x. Un teorema del margine quantile appena stabilito suggerisce che ritardi più lunghi richiedono una separazione di norma, garantendo che V_mem superi V_star.
Fatti principali
- Prima previsione quantitativa del ritardo di grokking sotto AdamW
- Legge in forma chiusa: T_grok - T_mem = (1 / 2 kappa_LL eta lambda) log(V_mem / V_star)
- Calibrata su singolo iperparametro cella, prevede 26 run tenuti fuori con MAPE 17,7%
- Generalizza a MLP (MAPE 18,0%, N=34)
- Estensione cross-task MAPE 23,3% (N=46, intervallo 43,5x)
- Teorema del margine quantile: il ritardo positivo richiede separazione di norma V_mem > V_star
- Il primo passaggio di V_t è necessario ma non sufficiente
- V_star / V_mem stabile all'interno dell'architettura (CV ~14% su trasformatore 1L)
Entità
—