Due Velocità di Apprendimento: Grokking e Doppia Discesa Scomposte

other · 2026-05-27

Un recente articolo su arXiv (2605.27078) presenta un framework indipendente dal compito per chiarire il grokking e la doppia discesa per epoca nelle reti neurali profonde. I ricercatori scompongono le dinamiche di apprendimento in due processi opposti: l'apprendimento della rappresentazione all'interno dell'encoder e la calibrazione del readout nello stadio finale del classificatore. Utilizzando la geometria rappresentazionale, i kernel tangenti neurali e il probing lineare, dimostrano che entrambi i processi rimangono attivi durante l'addestramento, con le loro velocità variabili che portano agli effetti di generalizzazione osservati. Questo framework mira a colmare il divario per uno strumento analitico coeso applicabile a compiti e architetture realistici.

Fatti principali

Articolo arXiv 2605.27078
Tipo di annuncio: cross
Analizza grokking e doppia discesa per epoca
Scompone l'apprendimento in apprendimento della rappresentazione e calibrazione del readout
Utilizza geometria rappresentazionale, kernel tangenti neurali, probing lineare
Entrambi i processi sono attivi durante tutto l'addestramento
Le fluttuazioni di velocità relativa causano i fenomeni
Framework indipendente dal compito per compiti e architetture realistici

Due Velocità di Apprendimento: Grokking e Doppia Discesa Scomposte

Fatti principali

Entità

Istituzioni

Fonti