StableGrad: Controllo a Livello di Ottimizzatore per Reti Neurali Profonde
Un nuovo metodo chiamato StableGrad affronta la sfida di controllare le magnitudini di attivazione e gradiente in reti neurali molto profonde senza fare affidamento sulla normalizzazione batch o altri strati di normalizzazione. Approcci tradizionali come la Normalizzazione Batch e le connessioni residue possono introdurre dipendenze non locali, il che è problematico per le Reti Neurali Informate dalla Fisica (PINNs), dove la rete rappresenta campi fisici continui e le derivate di input definiscono l'obiettivo di addestramento. StableGrad opera a livello di ottimizzatore, correggendo gli squilibri peso-gradiente tra i livelli senza modificare il modello forward. Ciò consente un addestramento stabile di reti profonde in contesti in cui la normalizzazione dipendente dal batch è inappropriata. Il metodo è dettagliato in un articolo su arXiv (2605.19856).
Fatti principali
- 1. StableGrad controlla la propagazione delle magnitudini nelle reti neurali profonde.
- 2. Non utilizza la Normalizzazione Batch o altri strati di normalizzazione.
- 3. La Normalizzazione Batch può introdurre dipendenze non locali nelle PINNs.
- 4. Le PINNs rappresentano campi fisici continui con derivate di input come obiettivi di addestramento.
- 5. StableGrad corregge gli squilibri peso-gradiente tra i livelli.
- 6. Opera a livello di ottimizzatore senza modificare il modello forward.
- 7. Il metodo è descritto nell'articolo arXiv 2605.19856.
- 8. StableGrad consente un addestramento stabile dove la normalizzazione dipendente dal batch fallisce.
Entità
Istituzioni
- arXiv