OpenAI lancia GPT-Realtime-2, modelli di traduzione e Whisper

ai-technology · 2026-05-07

OpenAI ha introdotto tre nuovi modelli audio nella sua API: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. GPT-Realtime-2 è il primo modello vocale con ragionamento di classe GPT-5, con chiamate parallele a strumenti, contesto più lungo (128K), sforzo di ragionamento regolabile e migliorato comportamento di recupero. Ha ottenuto un punteggio del 15,2% superiore su Big Bench Audio rispetto al suo predecessore. GPT-Realtime-Translate supporta la traduzione in tempo reale da oltre 70 lingue di input a 13 lingue di output, con Deutsche Telekom che lo sta testando per l'assistenza clienti multilingue. GPT-Realtime-Whisper fornisce speech-to-text in streaming a bassa latenza. Prezzi: GPT-Realtime-2 a $32/1M token audio in input e $64/1M token audio in output; Translate a $0,034 al minuto; Whisper a $0,017 al minuto. I modelli sono disponibili nella Realtime API, con pieno supporto per la residenza dei dati UE e impegni di privacy aziendale. Gli sviluppatori possono testarli nel Playground.

Fatti principali

OpenAI ha lanciato GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper il 5 maggio 2026.
GPT-Realtime-2 ha ragionamento di classe GPT-5, contesto di 128K e sforzo di ragionamento regolabile.
GPT-Realtime-2 ha ottenuto un punteggio del 15,2% superiore su Big Bench Audio rispetto a GPT-Realtime-1.5.
GPT-Realtime-Translate supporta oltre 70 lingue di input e 13 lingue di output.
GPT-Realtime-Whisper è un modello speech-to-text in streaming.
Prezzi GPT-Realtime-2: $32/1M token audio in input, $64/1M token audio in output.
GPT-Realtime-Translate costa $0,034 al minuto; Whisper costa $0,017 al minuto.
I modelli supportano la residenza dei dati UE e gli impegni di privacy aziendale.

Entità

Istituzioni

OpenAI
Zillow
Deutsche Telekom
Priceline
Vimeo

Luoghi

India
Japan
EU

Fonti

OpenAI Blog — 2026-05-07