ARTFEED — Contemporary Art Intelligence

ScheduleFree+ supera gli schemi WSD nell'addestramento di LLM

ai-technology · 2026-05-20

Un nuovo metodo di machine learning, ScheduleFree+, estende l'apprendimento senza schedulazione (Schedule-Free Learning) ai grandi modelli linguistici (LLM) affrontando i problemi di scalabilità con batch size e dimensioni del modello maggiori. Il metodo elimina la necessità di schemi di tasso di apprendimento e supera gli schemi Warmup-Stable-Decay (WSD). A 1000 token per parametro, ottiene un miglioramento del 31% rispetto agli schemi all'avanguardia. L'approccio fornisce una base teorica per la media dei modelli e l'unione dei checkpoint durante il pre-addestramento.

Fatti principali

  • ScheduleFree+ è un metodo senza tasso di apprendimento e senza schedulazione per l'addestramento di LLM.
  • Supera gli schemi Warmup-Stable-Decay (WSD).
  • A 1000 token per parametro, supera gli schemi SOTA del 31%.
  • L'apprendimento senza schedulazione ha mostrato successo in dozzine di problemi benchmark standard.
  • In precedenza, le prestazioni elevate per l'addestramento di LLM erano dimostrate solo a piccola scala.
  • Il metodo fornisce una base teorica per la media dei modelli e l'unione dei checkpoint.
  • L'articolo identifica le correzioni necessarie per scalare l'apprendimento senza schedulazione a batch size e dimensioni del modello maggiori.
  • L'apprendimento senza schedulazione è più efficace per addestramenti di lunga durata.

Entità

Istituzioni

  • arXiv

Fonti