ScheduleFree+ supera gli schemi WSD nell'addestramento di LLM
Un nuovo metodo di machine learning, ScheduleFree+, estende l'apprendimento senza schedulazione (Schedule-Free Learning) ai grandi modelli linguistici (LLM) affrontando i problemi di scalabilità con batch size e dimensioni del modello maggiori. Il metodo elimina la necessità di schemi di tasso di apprendimento e supera gli schemi Warmup-Stable-Decay (WSD). A 1000 token per parametro, ottiene un miglioramento del 31% rispetto agli schemi all'avanguardia. L'approccio fornisce una base teorica per la media dei modelli e l'unione dei checkpoint durante il pre-addestramento.
Fatti principali
- ScheduleFree+ è un metodo senza tasso di apprendimento e senza schedulazione per l'addestramento di LLM.
- Supera gli schemi Warmup-Stable-Decay (WSD).
- A 1000 token per parametro, supera gli schemi SOTA del 31%.
- L'apprendimento senza schedulazione ha mostrato successo in dozzine di problemi benchmark standard.
- In precedenza, le prestazioni elevate per l'addestramento di LLM erano dimostrate solo a piccola scala.
- Il metodo fornisce una base teorica per la media dei modelli e l'unione dei checkpoint.
- L'articolo identifica le correzioni necessarie per scalare l'apprendimento senza schedulazione a batch size e dimensioni del modello maggiori.
- L'apprendimento senza schedulazione è più efficace per addestramenti di lunga durata.
Entità
Istituzioni
- arXiv