I Minimi Piatti nelle Reti Neurali Sono un'Illusione, Secondo uno Studio
Uno studio recente pubblicato su arXiv contesta l'assunzione comune che i minimi piatti nei paesaggi di perdita delle reti neurali migliorino la generalizzazione. L'autore rivela che una riparametrizzazione che preserva la funzione può aumentare significativamente l'Assia di qualsiasi minimo senza modificare le previsioni, suggerendo che la piattezza non è un elemento causale. Invece, la ricerca introduce il concetto di "debolezza", definita come il volume di completamenti che si allineano con la funzione appresa nel linguaggio incarnato dell'apprendista, come il fattore effettivo che influenza la generalizzazione. La debolezza rimane invariante sotto riparametrizzazione e si dimostra essere minimax-ottimale per domande scambiabili. Inoltre, i risultati indicano che i bound PAC-Bayes sono efficaci a causa della loro correlazione con la debolezza, con esperimenti su MNIST che dimostrano i vantaggi della generalizzazione con batch grandi.
Fatti principali
- 1. I minimi piatti non sono la causa di una migliore generalizzazione nelle reti neurali.
- 2. La riparametrizzazione che preserva la funzione può aumentare l'Assia di due ordini di grandezza.
- 3. La debolezza è definita come il volume di completamenti compatibili con la funzione appresa.
- 4. La debolezza è invariante sotto riparametrizzazione e minimax-ottimale per domande scambiabili.
- 5. I bound PAC-Bayes funzionano perché correlano con la debolezza.
- 6. L'articolo è pubblicato su arXiv con ID 2605.05209.
- 7. Gli esperimenti sono stati condotti sul dataset MNIST.
- 8. Lo studio sfida la teoria della Sharpness-Aware Minimisation (SAM).
Entità
Istituzioni
- arXiv