OpenAI e Microsoft implementano MRC e SRv6 per il networking resiliente dei supercomputer AI
Un nuovo protocollo di trasporto basato su RDMA chiamato MRC, combinato con topologie Clos multi-piano e source-routing statico SRv6, è stato implementato in produzione nei più grandi cluster di training di OpenAI e Microsoft. L'approccio elimina le collisioni di flusso distribuendo il traffico su più percorsi con bilanciamento del carico attivo, consente cluster con oltre 100.000 GPU utilizzando topologie a due livelli con maggiore ridondanza e permette il bypass automatico dei guasti di rete. MRC è stato utilizzato per addestrare i modelli frontier più recenti, consentendo ai job di superare guasti che in precedenza avrebbero interrotto il training.
Fatti principali
- MRC è un nuovo protocollo di trasporto basato su RDMA
- MRC distribuisce il traffico su molti percorsi e bilancia attivamente il carico tra di essi
- Le topologie Clos multi-piano consentono cluster con oltre 100.000 GPU come topologie a due livelli
- Il source-routing statico tramite SRv6 permette a MRC di bypassare i guasti
- Implementato in produzione nei più grandi cluster di training di OpenAI e Microsoft
- Utilizzato per addestrare i modelli frontier più recenti
- Consente ai job di training AI di superare molti guasti di rete
- La latenza di coda domina le prestazioni del pre-training sincrono a scale molto grandi
Entità
Istituzioni
- OpenAI
- Microsoft