ARTFEED — Contemporary Art Intelligence

Divario di Nitidezza Stocastica nell'Addestramento SGD di Reti Neurali

ai-technology · 2026-04-25

Un nuovo preprint su arXiv (2604.21016) indaga perché la discesa stocastica del gradiente (SGD) a mini-batch stabilizza la nitidezza al di sotto della soglia 2/η osservata nella discesa del gradiente (GD) a batch completo. Nel GD, la nitidezza sale a 2/η e vi si aggira, un fenomeno noto come Edge of Stability (EoS), spiegato da un meccanismo di auto-stabilizzazione guidato dalla struttura di terzo ordine della perdita (Damian et al., 2023). Per SGD, la nitidezza si stabilizza al di sotto di 2/η, con il divario che si allarga al diminuire della dimensione del batch, ma non esisteva una spiegazione teorica. Gli autori introducono l'auto-stabilizzazione stocastica, estendendo il quadro teorico a SGD. La loro intuizione chiave è che il rumore del gradiente inietta varianza nelle dinamiche oscillatorie lungo l'autovettore principale dell'Hessiana, rafforzando l'effetto di auto-stabilizzazione e sopprimendo la nitidezza. L'articolo fornisce una base teorica per il divario di nitidezza stocastica, collegando la dimensione del batch alla soppressione della nitidezza.

Fatti principali

  • arXiv:2604.21016
  • La nitidezza del GD a batch completo sale a 2/η (Edge of Stability)
  • Damian et al. (2023) hanno spiegato EoS tramite auto-stabilizzazione dalla struttura di terzo ordine della perdita
  • La nitidezza di SGD si stabilizza al di sotto di 2/η
  • Il divario di nitidezza si allarga al diminuire della dimensione del batch
  • Nessuna spiegazione teorica precedente per la soppressione della nitidezza in SGD
  • Gli autori propongono l'auto-stabilizzazione stocastica
  • Il rumore del gradiente inietta varianza nelle dinamiche dell'autovettore principale dell'Hessiana

Entità

Istituzioni

  • arXiv

Fonti