ARTFEED — Contemporary Art Intelligence

OpenAI e Microsoft implementano MRC e SRv6 per il networking resiliente dei supercomputer AI

ai-technology · 2026-05-07

Un nuovo protocollo di trasporto basato su RDMA chiamato MRC, combinato con topologie Clos multi-piano e source-routing statico SRv6, è stato implementato in produzione nei più grandi cluster di training di OpenAI e Microsoft. L'approccio elimina le collisioni di flusso distribuendo il traffico su più percorsi con bilanciamento del carico attivo, consente cluster con oltre 100.000 GPU utilizzando topologie a due livelli con maggiore ridondanza e permette il bypass automatico dei guasti di rete. MRC è stato utilizzato per addestrare i modelli frontier più recenti, consentendo ai job di superare guasti che in precedenza avrebbero interrotto il training.

Fatti principali

  • MRC è un nuovo protocollo di trasporto basato su RDMA
  • MRC distribuisce il traffico su molti percorsi e bilancia attivamente il carico tra di essi
  • Le topologie Clos multi-piano consentono cluster con oltre 100.000 GPU come topologie a due livelli
  • Il source-routing statico tramite SRv6 permette a MRC di bypassare i guasti
  • Implementato in produzione nei più grandi cluster di training di OpenAI e Microsoft
  • Utilizzato per addestrare i modelli frontier più recenti
  • Consente ai job di training AI di superare molti guasti di rete
  • La latenza di coda domina le prestazioni del pre-training sincrono a scale molto grandi

Entità

Istituzioni

  • OpenAI
  • Microsoft

Fonti