Divario di Nitidezza Stocastica nell'Addestramento SGD di Reti Neurali

ai-technology · 2026-04-25

Un nuovo preprint su arXiv (2604.21016) indaga perché la discesa stocastica del gradiente (SGD) a mini-batch stabilizza la nitidezza al di sotto della soglia 2/η osservata nella discesa del gradiente (GD) a batch completo. Nel GD, la nitidezza sale a 2/η e vi si aggira, un fenomeno noto come Edge of Stability (EoS), spiegato da un meccanismo di auto-stabilizzazione guidato dalla struttura di terzo ordine della perdita (Damian et al., 2023). Per SGD, la nitidezza si stabilizza al di sotto di 2/η, con il divario che si allarga al diminuire della dimensione del batch, ma non esisteva una spiegazione teorica. Gli autori introducono l'auto-stabilizzazione stocastica, estendendo il quadro teorico a SGD. La loro intuizione chiave è che il rumore del gradiente inietta varianza nelle dinamiche oscillatorie lungo l'autovettore principale dell'Hessiana, rafforzando l'effetto di auto-stabilizzazione e sopprimendo la nitidezza. L'articolo fornisce una base teorica per il divario di nitidezza stocastica, collegando la dimensione del batch alla soppressione della nitidezza.

Fatti principali

arXiv:2604.21016
La nitidezza del GD a batch completo sale a 2/η (Edge of Stability)
Damian et al. (2023) hanno spiegato EoS tramite auto-stabilizzazione dalla struttura di terzo ordine della perdita
La nitidezza di SGD si stabilizza al di sotto di 2/η
Il divario di nitidezza si allarga al diminuire della dimensione del batch
Nessuna spiegazione teorica precedente per la soppressione della nitidezza in SGD
Gli autori propongono l'auto-stabilizzazione stocastica
Il rumore del gradiente inietta varianza nelle dinamiche dell'autovettore principale dell'Hessiana

Divario di Nitidezza Stocastica nell'Addestramento SGD di Reti Neurali

Fatti principali

Entità

Istituzioni

Fonti