Connettività di Modo Indotta dall'Ottimizzatore nelle Reti Neurali

other · 2026-05-12

Un recente articolo di ricerca disponibile su arXiv (2605.09991) esamina l'impatto di ottimizzatori come AdamW e Muon sulla connettività di modo all'interno delle reti neurali. Lo studio rivela che per reti ReLU a due strati, le soluzioni generate da un singolo ottimizzatore creano un insieme connesso quando la larghezza della rete è grande, cosa non stabilita in ricerche precedenti. A seconda del tipo di regolarizzazione, le regioni influenzate da diversi ottimizzatori possono sovrapporsi o rimanere separate. In scenari con larghezze minori, AdamW e Muon portano a componenti a perdita zero disconnesse, separate da una barriera di perdita dimostrabile. Inoltre, durante il pre-addestramento di GPT-2, i percorsi che utilizzano lo stesso ottimizzatore mantengono lo spettro di ciascun modello, mentre i percorsi che utilizzano ottimizzatori diversi mostrano una transizione graduale.

Fatti principali

Articolo arXiv 2605.09991
Studia la connettività di modo indotta dall'ottimizzatore
Si concentra sulla famiglia AdamW, Muon e Lion-𝒦
Reti ReLU a due strati con larghezza elevata formano insiemi connessi
Diversi ottimizzatori possono produrre regioni disgiunte o sovrapposte
Esempio a larghezza ridotta mostra barriera di perdita tra AdamW e Muon
Esperimenti di pre-addestramento di GPT-2 condotti
I percorsi con lo stesso ottimizzatore preservano lo spettro del modello

Connettività di Modo Indotta dall'Ottimizzatore nelle Reti Neurali

Fatti principali

Entità

Istituzioni

Fonti