ARTFEED — Contemporary Art Intelligence

ReCoVer: Sistema Tollerante ai Guasti per il Pre-Addestramento di LLM

other · 2026-05-13

Un nuovo sistema chiamato ReCoVer affronta i guasti hardware durante il pre-addestramento di modelli linguistici di grandi dimensioni su cluster GPU. Mantiene conteggi costanti di micro-batch per iterazione per mantenere gradienti equivalenti a esecuzioni senza guasti. Il framework ha tre livelli di protocollo disaccoppiati: collettivi tolleranti ai guasti, recupero fine-grained in-step e politica di carico di lavoro versatile per la ridistribuzione dinamica. È agnostico rispetto al parallelismo e si integra direttamente con i framework esistenti.

Fatti principali

  • ReCoVer è un sistema resiliente per il pre-addestramento di LLM.
  • Mantiene costante il numero di micro-batch per iterazione.
  • Assicura che i gradienti per iterazione siano stocasticamente equivalenti a esecuzioni senza guasti.
  • Il framework ha tre livelli di protocollo disaccoppiati.
  • I collettivi tolleranti ai guasti isolano i guasti tra le repliche.
  • Il recupero fine-grained in-step preserva il progresso intra-iterazione.
  • La politica di carico di lavoro versatile ridistribuisce dinamicamente le quote di micro-batch.
  • Il design è agnostico rispetto al parallelismo.

Entità

Fonti