Due Velocità di Apprendimento: Grokking e Doppia Discesa Scomposte
Un recente articolo su arXiv (2605.27078) presenta un framework indipendente dal compito per chiarire il grokking e la doppia discesa per epoca nelle reti neurali profonde. I ricercatori scompongono le dinamiche di apprendimento in due processi opposti: l'apprendimento della rappresentazione all'interno dell'encoder e la calibrazione del readout nello stadio finale del classificatore. Utilizzando la geometria rappresentazionale, i kernel tangenti neurali e il probing lineare, dimostrano che entrambi i processi rimangono attivi durante l'addestramento, con le loro velocità variabili che portano agli effetti di generalizzazione osservati. Questo framework mira a colmare il divario per uno strumento analitico coeso applicabile a compiti e architetture realistici.
Fatti principali
- Articolo arXiv 2605.27078
- Tipo di annuncio: cross
- Analizza grokking e doppia discesa per epoca
- Scompone l'apprendimento in apprendimento della rappresentazione e calibrazione del readout
- Utilizza geometria rappresentazionale, kernel tangenti neurali, probing lineare
- Entrambi i processi sono attivi durante tutto l'addestramento
- Le fluttuazioni di velocità relativa causano i fenomeni
- Framework indipendente dal compito per compiti e architetture realistici
Entità
Istituzioni
- arXiv