OpenAI rilascia il protocollo di rete MRC per scalare i supercomputer AI
OpenAI ha introdotto il protocollo Multipath Reliable Connection (MRC) tramite l'Open Compute Project (OCP) per migliorare le prestazioni e l'affidabilità del networking GPU in ampi cluster di addestramento. Sviluppato in collaborazione per due anni con AMD, Broadcom, Intel, Microsoft e NVIDIA, MRC è un nuovo protocollo di rete integrato nelle interfacce di rete da 800 Gb/s. Distribuisce efficientemente i trasferimenti di dati su numerosi percorsi, aggira rapidamente i guasti e utilizza il routing statico di origine. Attualmente, MRC è utilizzato in tutti i principali supercomputer NVIDIA GB200 di OpenAI, incluso un sito Oracle Cloud Infrastructure ad Abilene, Texas, e i supercomputer Fairwater di Microsoft. Questo protocollo ha facilitato l'addestramento di vari modelli OpenAI, come ChatGPT e Codex. MRC si basa su RDMA over Converged Ethernet (RoCE) e incorpora metodologie dell'Ultra Ethernet Consortium (UEC). Supporta reti multi-piano che collegano oltre 100.000 GPU con solo due livelli di switch, minimizzando il consumo energetico e i requisiti di componenti. Durante l'addestramento, MRC ha gestito diversi flap di collegamento al minuto senza alcun effetto percepibile e ha permesso riavvii degli switch senza interruzioni dei job. La specifica è ora disponibile come contributo OCP, accompagnata da un articolo co-autore intitolato "Resilient AI Supercomputer Networking using MRC and SRv6."
Fatti principali
- OpenAI ha rilasciato il protocollo MRC tramite OCP il 4 maggio 2026.
- MRC sviluppato con AMD, Broadcom, Intel, Microsoft e NVIDIA in due anni.
- MRC è integrato nelle interfacce di rete da 800 Gb/s.
- MRC implementato su tutti i più grandi supercomputer NVIDIA GB200 di OpenAI.
- MRC utilizzato per addestrare diversi modelli OpenAI, inclusi ChatGPT e Codex.
- MRC consente reti multi-piano che collegano oltre 100.000 GPU con due livelli di switch.
- MRC gestisce diversi flap di collegamento al minuto senza impatto misurabile sull'addestramento.
- Specifica MRC disponibile come contributo OCP.
Entità
Istituzioni
- OpenAI
- AMD
- Broadcom
- Intel
- Microsoft
- NVIDIA
- Open Compute Project (OCP)
- Oracle Cloud Infrastructure (OCI)
- Microsoft Azure
- Arista
- Ultra Ethernet Consortium (UEC)
- InfiniBand Trade Association (IBTA)
Luoghi
- Abilene
- Texas
- United States