ARTFEED — Contemporary Art Intelligence

Connettività di Modo Indotta dall'Ottimizzatore nelle Reti Neurali

other · 2026-05-12

Un recente articolo di ricerca disponibile su arXiv (2605.09991) esamina l'impatto di ottimizzatori come AdamW e Muon sulla connettività di modo all'interno delle reti neurali. Lo studio rivela che per reti ReLU a due strati, le soluzioni generate da un singolo ottimizzatore creano un insieme connesso quando la larghezza della rete è grande, cosa non stabilita in ricerche precedenti. A seconda del tipo di regolarizzazione, le regioni influenzate da diversi ottimizzatori possono sovrapporsi o rimanere separate. In scenari con larghezze minori, AdamW e Muon portano a componenti a perdita zero disconnesse, separate da una barriera di perdita dimostrabile. Inoltre, durante il pre-addestramento di GPT-2, i percorsi che utilizzano lo stesso ottimizzatore mantengono lo spettro di ciascun modello, mentre i percorsi che utilizzano ottimizzatori diversi mostrano una transizione graduale.

Fatti principali

  • Articolo arXiv 2605.09991
  • Studia la connettività di modo indotta dall'ottimizzatore
  • Si concentra sulla famiglia AdamW, Muon e Lion-𝒦
  • Reti ReLU a due strati con larghezza elevata formano insiemi connessi
  • Diversi ottimizzatori possono produrre regioni disgiunte o sovrapposte
  • Esempio a larghezza ridotta mostra barriera di perdita tra AdamW e Muon
  • Esperimenti di pre-addestramento di GPT-2 condotti
  • I percorsi con lo stesso ottimizzatore preservano lo spettro del modello

Entità

Istituzioni

  • arXiv

Fonti