OpenAI lancia la modalità WebSocket per l'API Responses, riducendo la latenza degli agenti del 40%
OpenAI ha introdotto la modalità WebSocket per la sua API Responses, consentendo connessioni persistenti che riducono la latenza end-to-end nei flussi di lavoro agentici fino al 40%. La funzionalità è stata sviluppata per stare al passo con modelli di inferenza più veloci come GPT-5.3-Codex-Spark, che gira a oltre 1.000 token al secondo su hardware Cerebras. In precedenza, ogni passo dell'agente richiedeva una nuova richiesta HTTP, causando un overhead cumulativo. La modalità WebSocket memorizza nella cache lo stato della conversazione in memoria, consentendo alle richieste successive di saltare l'elaborazione ridondante. Utenti alpha tra cui Vercel, Cline e Cursor hanno riportato miglioramenti della latenza del 30-40%. La modalità supporta le forme API esistenti tramite previous_response_id, minimizzando le interruzioni per gli sviluppatori. Il lancio segue uno sprint di due mesi dei team API e Codex di OpenAI, con Codex che ora instrada la maggior parte del suo traffico attraverso WebSocket.
Fatti principali
- La modalità WebSocket riduce la latenza dei flussi di lavoro agentici fino al 40%.
- GPT-5.3-Codex-Spark raggiunge oltre 1.000 token al secondo, con picchi fino a 4.000 TPS.
- La funzionalità memorizza nella cache lo stato della risposta precedente in memoria per evitare di ricostruire l'intera cronologia della conversazione.
- Gli utenti alpha includono Vercel (riduzione della latenza del 40%), Cline (39% più veloce) e Cursor (30% più veloce).
- La modalità WebSocket utilizza una connessione persistente invece di chiamate HTTP sincrone.
- L'API Responses è stata lanciata a marzo 2025.
- Le ottimizzazioni includono la memorizzazione nella cache dei token renderizzati, la riduzione dei salti di rete e il miglioramento dei classificatori di sicurezza.
- La funzionalità è stata sviluppata dai team API e Codex di OpenAI in due mesi.
Entità
Istituzioni
- OpenAI
- Cerebras
- Vercel
- Cline
- Cursor