Il Disaccordo tra i Lavoratori Rivela Direzioni Accentuate nella SGD Locale
Uno studio teorico recente indica che i disaccordi tra i lavoratori nella SGD locale possono stimare efficacemente e a basso costo le direzioni principali dell'Hessiana della geometria della perdita nelle reti neurali profonde. I risultati evidenziano che la covarianza dei gap medi tra i lavoratori è influenzata dal rumore stocastico del gradiente e dalla curvatura dell'Hessiana, portando a disaccordi tra i lavoratori in direzioni accentuate e sensibili alla curvatura. Ciò si traduce in un metodo senza Hessiana per stimare il sottospazio dominante, aiutando la comprensione di paesaggi di perdita anisotropi, dove direzioni accentuate coesistono con una regione più piatta. Esperimenti condotti su MLP, CNN e Transformer dimostrano che i sottospazi derivati dai gap medi dei lavoratori comprendono una porzione significativa della componente del gradiente nel sottospazio dominante. L'articolo è disponibile su arXiv con il riferimento 2605.27739.
Fatti principali
- Articolo arXiv 2605.27739
- Il disaccordo tra i lavoratori nella SGD locale stima le direzioni dominanti dell'Hessiana
- La covarianza del gap medio tra i lavoratori è modellata dal rumore e dalla curvatura
- Stimatore senza Hessiana del sottospazio dominante
- Esperimenti su MLP, CNN e Transformer
- Geometria della perdita anisotropa con direzioni accentuate e piatte
- I gradienti si allineano con le direzioni accentuate ma il progresso necessita di direzioni piatte
- Alternativa economica ai metodi diretti basati sull'Hessiana
Entità
Istituzioni
- arXiv