ScheduleFree+ supera gli schemi WSD nell'addestramento di LLM

ai-technology · 2026-05-20

Un nuovo metodo di machine learning, ScheduleFree+, estende l'apprendimento senza schedulazione (Schedule-Free Learning) ai grandi modelli linguistici (LLM) affrontando i problemi di scalabilità con batch size e dimensioni del modello maggiori. Il metodo elimina la necessità di schemi di tasso di apprendimento e supera gli schemi Warmup-Stable-Decay (WSD). A 1000 token per parametro, ottiene un miglioramento del 31% rispetto agli schemi all'avanguardia. L'approccio fornisce una base teorica per la media dei modelli e l'unione dei checkpoint durante il pre-addestramento.

Fatti principali

ScheduleFree+ è un metodo senza tasso di apprendimento e senza schedulazione per l'addestramento di LLM.
Supera gli schemi Warmup-Stable-Decay (WSD).
A 1000 token per parametro, supera gli schemi SOTA del 31%.
L'apprendimento senza schedulazione ha mostrato successo in dozzine di problemi benchmark standard.
In precedenza, le prestazioni elevate per l'addestramento di LLM erano dimostrate solo a piccola scala.
Il metodo fornisce una base teorica per la media dei modelli e l'unione dei checkpoint.
L'articolo identifica le correzioni necessarie per scalare l'apprendimento senza schedulazione a batch size e dimensioni del modello maggiori.
L'apprendimento senza schedulazione è più efficace per addestramenti di lunga durata.

ScheduleFree+ supera gli schemi WSD nell'addestramento di LLM

Fatti principali

Entità

Istituzioni

Fonti