SURGE: Nuova Compensazione del Gradiente per Reti Neurali Binarie
Uno studio recente presenta SURrogate GradiEnt Adaptation (SURGE), un framework innovativo per la compensazione apprendibile del gradiente volto a migliorare il processo di addestramento delle Reti Neurali Binarie (BNN). Le BNN dipendono da approssimazioni del gradiente per funzioni non differenziabili come la funzione segno; tuttavia, le tecniche attuali, incluso lo Straight-Through Estimator (STE), incontrano problemi di disallineamento del gradiente e perdita di informazioni a causa del clipping del gradiente a intervallo fisso. SURGE risolve queste sfide attraverso la retropropagazione ausiliaria, utilizzando un Compensatore di Gradiente a Doppio Percorso (DPGC) che crea un ramo ausiliario a piena precisione parallelo per ogni livello binarizzato. Questo metodo consente un flusso di gradiente disaccoppiato durante la retropropagazione, risultando in una stima del gradiente con bias ridotto. La ricerca è disponibile su arXiv con ID 2605.10989.
Fatti principali
- SURGE è un framework di compensazione apprendibile del gradiente per BNN.
- Affronta il disallineamento del gradiente e la perdita di informazioni nei metodi esistenti.
- Il Compensatore di Gradiente a Doppio Percorso (DPGC) crea un ramo ausiliario a piena precisione parallelo.
- DPGC disaccoppia il flusso del gradiente tramite decomposizione dell'output durante la retropropagazione.
- L'articolo è disponibile su arXiv con ID 2605.10989.
- SURGE sta per SURrogate GradiEnt Adaptation.
- Il metodo è teoricamente fondato.
- Mitiga il disallineamento del gradiente attraverso la retropropagazione ausiliaria.
Entità
Istituzioni
- arXiv