Layerwise LQR: Un Nuovo Framework per l'Ottimizzazione del Deep Learning Consapevole della Geometria
Uno studio recente presenta Layerwise LQR (LLQR), un nuovo framework progettato per apprendere precondizionatori inversi strutturati nel deep learning, concentrandosi su un obiettivo di controllo ottimale globale a livello di layer. Questa tecnica rivela un'equivalenza precisa tra i passi di steepest-descent in modelli quadratici indotti da divergenza – come Newton, Gauss-Newton, Fisher/natural-gradient e metriche di layer intermedio – e uno scenario di Regolatore Quadratico Lineare (LQR) a orizzonte finito. In tal modo, evidenzia dinamiche e matrici di costo a livello di layer che riflettono la geometria densa originale, fornendo una base per una rilassamento scalabile. Il metodo mira a migliorare il condizionamento nel deep learning mantenendo le interazioni tra layer, spesso trascurate da metodi scalabili come K-FAC e Shampoo. L'articolo è disponibile su arXiv con ID 2605.04230.
Fatti principali
- L'articolo introduce Layerwise LQR (LLQR) per l'ottimizzazione consapevole della geometria
- LLQR apprende precondizionatori inversi strutturati sotto un obiettivo di controllo ottimale globale a livello di layer
- Stabilisce l'equivalenza tra i passi di steepest-descent e un problema LQR a orizzonte finito
- Copre Newton, Gauss-Newton, Fisher/natural-gradient e metriche di layer intermedio
- Espone dinamiche e matrici di costo a livello di layer che codificano la geometria densa
- Il rilassamento scalabile preserva le interazioni tra layer
- Affronta le limitazioni dei precondizionatori K-FAC e Shampoo
- L'articolo è disponibile su arXiv con ID 2605.04230
Entità
Istituzioni
- arXiv