Metodo basato sul gradiente ottimizza online i pesi della loss di pre-addestramento
Un nuovo metodo bilevel basato sul gradiente apprende online i pesi della loss di pre-addestramento allineando i gradienti compositi con gli obiettivi downstream, evitando multiple backward pass. L'approccio riduce il costo di ottimizzazione degli iperparametri a circa il 30% rispetto a un singolo ciclo di addestramento. Valutato su modellazione di sequenze di eventi e visione artificiale auto-supervisionata, eguaglia o migliora i baseline ottimizzati.
Fatti principali
- Propone un metodo bilevel basato sul gradiente per l'apprendimento online dei pesi della loss
- Allinea il gradiente composito del pre-addestramento con l'obiettivo downstream
- Evita multiple backward pass sfruttando la struttura della loss
- Riduce il costo di ottimizzazione degli iperparametri a circa il 30% rispetto a un singolo ciclo
- Valutato su modellazione di sequenze di eventi e visione artificiale auto-supervisionata
- Eguaglia o migliora i baseline accuratamente ottimizzati
Entità
—