TrainMover: un runtime resiliente riduce i tempi di inattività nell'addestramento LLM
TrainMover, un nuovo runtime, affronta le comuni interruzioni nei compiti di addestramento ML su larga scala derivanti da problemi software e hardware, guasti ed eventi di gestione. A differenza dei metodi tradizionali come checkpoint-restart o riconfigurazione runtime, che spesso comportano lunghi tempi di inattività e prestazioni ridotte, TrainMover utilizza macchine elastiche e di standby per minimizzare le interruzioni, ottenendo tempi di inattività trascurabili e nessun overhead di memoria. Il sistema presenta tre tecniche innovative: un setup di gruppo di comunicazione delta-based in due fasi; un warmup sandboxed senza comunicazione; e un design di standby versatile per il recupero da qualsiasi ruolo. I test su scala 1024 GPU rivelano che TrainMover mantiene circa 20 secondi di inattività durante varie interruzioni. Si prevede che ridurrà le ore GPU sprecate del 55%, traducendosi in un risparmio di 1,4 milioni di ore GPU a settimana su scala 64K GPU.
Fatti principali
- TrainMover è un runtime resiliente per l'addestramento LLM.
- Gestisce interruzioni da anomalie hardware/software, guasti ed eventi di gestione.
- Le soluzioni esistenti come checkpoint-restart soffrono di lunghi tempi di inattività.
- TrainMover utilizza macchine elastiche e di standby.
- Introduce tre tecniche chiave: setup di gruppo di comunicazione delta-based in due fasi, warmup sandboxed senza comunicazione e design di standby generale.
- La valutazione su scala 1024 GPU mostra circa 20 secondi di inattività.
- Si prevede una riduzione del 55% delle ore GPU sprecate.
- Potrebbe risparmiare 1,4 milioni di ore GPU a settimana su scala 64K GPU.
Entità
—