ReCoVer: Sistema Tollerante ai Guasti per il Pre-Addestramento di LLM
Un nuovo sistema chiamato ReCoVer affronta i guasti hardware durante il pre-addestramento di modelli linguistici di grandi dimensioni su cluster GPU. Mantiene conteggi costanti di micro-batch per iterazione per mantenere gradienti equivalenti a esecuzioni senza guasti. Il framework ha tre livelli di protocollo disaccoppiati: collettivi tolleranti ai guasti, recupero fine-grained in-step e politica di carico di lavoro versatile per la ridistribuzione dinamica. È agnostico rispetto al parallelismo e si integra direttamente con i framework esistenti.
Fatti principali
- ReCoVer è un sistema resiliente per il pre-addestramento di LLM.
- Mantiene costante il numero di micro-batch per iterazione.
- Assicura che i gradienti per iterazione siano stocasticamente equivalenti a esecuzioni senza guasti.
- Il framework ha tre livelli di protocollo disaccoppiati.
- I collettivi tolleranti ai guasti isolano i guasti tra le repliche.
- Il recupero fine-grained in-step preserva il progresso intra-iterazione.
- La politica di carico di lavoro versatile ridistribuisce dinamicamente le quote di micro-batch.
- Il design è agnostico rispetto al parallelismo.
Entità
—