TrainMover: un runtime resiliente riduce i tempi di inattività nell'addestramento LLM

ai-technology · 2026-05-18

TrainMover, un nuovo runtime, affronta le comuni interruzioni nei compiti di addestramento ML su larga scala derivanti da problemi software e hardware, guasti ed eventi di gestione. A differenza dei metodi tradizionali come checkpoint-restart o riconfigurazione runtime, che spesso comportano lunghi tempi di inattività e prestazioni ridotte, TrainMover utilizza macchine elastiche e di standby per minimizzare le interruzioni, ottenendo tempi di inattività trascurabili e nessun overhead di memoria. Il sistema presenta tre tecniche innovative: un setup di gruppo di comunicazione delta-based in due fasi; un warmup sandboxed senza comunicazione; e un design di standby versatile per il recupero da qualsiasi ruolo. I test su scala 1024 GPU rivelano che TrainMover mantiene circa 20 secondi di inattività durante varie interruzioni. Si prevede che ridurrà le ore GPU sprecate del 55%, traducendosi in un risparmio di 1,4 milioni di ore GPU a settimana su scala 64K GPU.

Fatti principali

TrainMover è un runtime resiliente per l'addestramento LLM.
Gestisce interruzioni da anomalie hardware/software, guasti ed eventi di gestione.
Le soluzioni esistenti come checkpoint-restart soffrono di lunghi tempi di inattività.
TrainMover utilizza macchine elastiche e di standby.
Introduce tre tecniche chiave: setup di gruppo di comunicazione delta-based in due fasi, warmup sandboxed senza comunicazione e design di standby generale.
La valutazione su scala 1024 GPU mostra circa 20 secondi di inattività.
Si prevede una riduzione del 55% delle ore GPU sprecate.
Potrebbe risparmiare 1,4 milioni di ore GPU a settimana su scala 64K GPU.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18