La nuova architettura WebRTC di OpenAI per l'IA vocale a bassa latenza
Gli ingegneri di OpenAI Yi Zhang e William McDonald descrivono in dettaglio uno stack WebRTC riprogettato per l'IA vocale in tempo reale, affrontando le sfide di scalabilità per oltre 900 milioni di utenti attivi settimanali. Il sistema utilizza un modello split relay-plus-transceiver: un livello relay leggero gestisce il routing dei pacchetti tramite frammenti di nome utente ICE, mentre i transceiver terminano le sessioni WebRTC. Questo design riduce l'impronta UDP pubblica a un piccolo numero di porte, consentendo il deployment su Kubernetes senza esporre ampi intervalli di porte. I punti di ingresso Global Relay accorciano la latenza del primo hop, e la segnalazione geo-steered indirizza i client verso i cluster vicini. Il relay, scritto in Go, utilizza SO_REUSEPORT e thread pinning per l'efficienza. I risultati chiave includono latenza ridotta, minore jitter e semplificazione della scalabilità dell'infrastruttura. L'architettura preserva il comportamento WebRTC standard per i client, garantendo l'interoperabilità con browser e app mobili. L'approccio di OpenAI evita il kernel bypass, affidandosi a un'implementazione ristretta che gestisce il traffico multimediale globale in tempo reale con una piccola impronta del relay.
Fatti principali
- OpenAI serve oltre 900 milioni di utenti attivi settimanali con l'IA vocale.
- La nuova architettura utilizza un modello split relay-plus-transceiver.
- Il relay instrada i pacchetti utilizzando frammenti di nome utente ICE (ufrag).
- I transceiver terminano le sessioni WebRTC e possiedono lo stato del protocollo.
- La flotta Global Relay fornisce punti di ingresso geograficamente distribuiti.
- La segnalazione geo-steered indirizza i client verso i cluster transceiver vicini.
- Il relay è scritto in Go e utilizza SO_REUSEPORT e thread pinning.
- Il design riduce l'impronta UDP pubblica a un piccolo numero di porte.
Entità
Istituzioni
- OpenAI
- Cloudflare
- Pion