Connettività di Modo Indotta dall'Ottimizzatore nelle Reti Neurali
Un recente articolo di ricerca disponibile su arXiv (2605.09991) esamina l'impatto di ottimizzatori come AdamW e Muon sulla connettività di modo all'interno delle reti neurali. Lo studio rivela che per reti ReLU a due strati, le soluzioni generate da un singolo ottimizzatore creano un insieme connesso quando la larghezza della rete è grande, cosa non stabilita in ricerche precedenti. A seconda del tipo di regolarizzazione, le regioni influenzate da diversi ottimizzatori possono sovrapporsi o rimanere separate. In scenari con larghezze minori, AdamW e Muon portano a componenti a perdita zero disconnesse, separate da una barriera di perdita dimostrabile. Inoltre, durante il pre-addestramento di GPT-2, i percorsi che utilizzano lo stesso ottimizzatore mantengono lo spettro di ciascun modello, mentre i percorsi che utilizzano ottimizzatori diversi mostrano una transizione graduale.
Fatti principali
- Articolo arXiv 2605.09991
- Studia la connettività di modo indotta dall'ottimizzatore
- Si concentra sulla famiglia AdamW, Muon e Lion-𝒦
- Reti ReLU a due strati con larghezza elevata formano insiemi connessi
- Diversi ottimizzatori possono produrre regioni disgiunte o sovrapposte
- Esempio a larghezza ridotta mostra barriera di perdita tra AdamW e Muon
- Esperimenti di pre-addestramento di GPT-2 condotti
- I percorsi con lo stesso ottimizzatore preservano lo spettro del modello
Entità
Istituzioni
- arXiv