ARTFEED — Contemporary Art Intelligence

OpenAI rilascia il protocollo di rete MRC per scalare i supercomputer AI

ai-technology · 2026-05-06

OpenAI ha introdotto il protocollo Multipath Reliable Connection (MRC) tramite l'Open Compute Project (OCP) per migliorare le prestazioni e l'affidabilità del networking GPU in ampi cluster di addestramento. Sviluppato in collaborazione per due anni con AMD, Broadcom, Intel, Microsoft e NVIDIA, MRC è un nuovo protocollo di rete integrato nelle interfacce di rete da 800 Gb/s. Distribuisce efficientemente i trasferimenti di dati su numerosi percorsi, aggira rapidamente i guasti e utilizza il routing statico di origine. Attualmente, MRC è utilizzato in tutti i principali supercomputer NVIDIA GB200 di OpenAI, incluso un sito Oracle Cloud Infrastructure ad Abilene, Texas, e i supercomputer Fairwater di Microsoft. Questo protocollo ha facilitato l'addestramento di vari modelli OpenAI, come ChatGPT e Codex. MRC si basa su RDMA over Converged Ethernet (RoCE) e incorpora metodologie dell'Ultra Ethernet Consortium (UEC). Supporta reti multi-piano che collegano oltre 100.000 GPU con solo due livelli di switch, minimizzando il consumo energetico e i requisiti di componenti. Durante l'addestramento, MRC ha gestito diversi flap di collegamento al minuto senza alcun effetto percepibile e ha permesso riavvii degli switch senza interruzioni dei job. La specifica è ora disponibile come contributo OCP, accompagnata da un articolo co-autore intitolato "Resilient AI Supercomputer Networking using MRC and SRv6."

Fatti principali

  • OpenAI ha rilasciato il protocollo MRC tramite OCP il 4 maggio 2026.
  • MRC sviluppato con AMD, Broadcom, Intel, Microsoft e NVIDIA in due anni.
  • MRC è integrato nelle interfacce di rete da 800 Gb/s.
  • MRC implementato su tutti i più grandi supercomputer NVIDIA GB200 di OpenAI.
  • MRC utilizzato per addestrare diversi modelli OpenAI, inclusi ChatGPT e Codex.
  • MRC consente reti multi-piano che collegano oltre 100.000 GPU con due livelli di switch.
  • MRC gestisce diversi flap di collegamento al minuto senza impatto misurabile sull'addestramento.
  • Specifica MRC disponibile come contributo OCP.

Entità

Istituzioni

  • OpenAI
  • AMD
  • Broadcom
  • Intel
  • Microsoft
  • NVIDIA
  • Open Compute Project (OCP)
  • Oracle Cloud Infrastructure (OCI)
  • Microsoft Azure
  • Arista
  • Ultra Ethernet Consortium (UEC)
  • InfiniBand Trade Association (IBTA)

Luoghi

  • Abilene
  • Texas
  • United States

Fonti