ARTFEED — Contemporary Art Intelligence

Cinque generazioni di scheduling del tasso di apprendimento sistematizzate in un nuovo articolo

publication · 2026-05-01

Un nuovo preprint su arXiv (2604.27295) delinea cinque generazioni di scheduling del tasso di apprendimento: tassi fissi globali, scheduling globale, adattamento a livello di parametro, differenziazione a livello di strato e scheduling congiunto strato-tempo. La ricerca introduce un framework chiamato Discriminative Adaptive Layer Scaling (DALS), che combina scheduling coseno fase-adattivo con filtraggio Grokfast sensibile alla profondità e rapporti di fiducia in stile LARS. Valuta 18 ottimizzatori su una serie di compiti, affrontando la sfida della 'trinità impossibile' nell'apprendimento per trasferimento, dove gli strati inferiori richiedono piccoli aggiornamenti ma gli strati superiori necessitano di aggiustamenti più significativi.

Fatti principali

  • Il preprint arXiv 2604.27295 sistematizza lo scheduling del tasso di apprendimento in cinque generazioni.
  • Generazioni: Gen1 tasso fisso globale, Gen2 scheduling globale, Gen3 a livello di parametro, Gen4 a livello di strato, Gen5 congiunto strato-tempo.
  • Propone il framework DALS che integra scheduling coseno, filtraggio Grokfast e rapporti di fiducia LARS.
  • Confronta 18 ottimizzatori su vari compiti.
  • Affronta la trinità impossibile dell'apprendimento per trasferimento.
  • Gli strati inferiori richiedono piccoli aggiornamenti per preservare la conoscenza generale.
  • Gli strati superiori necessitano di grandi aggiornamenti per adattarsi a nuovi compiti.
  • Articolo disponibile su https://arxiv.org/abs/2604.27295.

Entità

Istituzioni

  • arXiv

Fonti