Metodo basato sul gradiente ottimizza online i pesi della loss di pre-addestramento

other · 2026-05-11

Un nuovo metodo bilevel basato sul gradiente apprende online i pesi della loss di pre-addestramento allineando i gradienti compositi con gli obiettivi downstream, evitando multiple backward pass. L'approccio riduce il costo di ottimizzazione degli iperparametri a circa il 30% rispetto a un singolo ciclo di addestramento. Valutato su modellazione di sequenze di eventi e visione artificiale auto-supervisionata, eguaglia o migliora i baseline ottimizzati.

Fatti principali

Propone un metodo bilevel basato sul gradiente per l'apprendimento online dei pesi della loss
Allinea il gradiente composito del pre-addestramento con l'obiettivo downstream
Evita multiple backward pass sfruttando la struttura della loss
Riduce il costo di ottimizzazione degli iperparametri a circa il 30% rispetto a un singolo ciclo
Valutato su modellazione di sequenze di eventi e visione artificiale auto-supervisionata
Eguaglia o migliora i baseline accuratamente ottimizzati

Entità

—

Fonti

arXiv cs.AI — 2026-05-11