Google DeepMind presenta Gemini 3.1 Flash TTS con controllo audio granulare

ai-technology · 2026-05-07

Google DeepMind ha rilasciato Gemini 3.1 Flash TTS, un nuovo modello text-to-speech che introduce tag audio granulari per un controllo preciso sulla sintesi vocale generata dall'IA. Il modello consente agli utenti di dirigere la generazione audio espressiva con regolazioni fini, segnando un passo significativo nella sintesi vocale basata sull'IA. Questo sviluppo si basa sulla ricerca in corso di DeepMind nell'audio generativo e mira a migliorare le applicazioni nell'accessibilità, nella creazione di contenuti e nei sistemi interattivi.

Fatti principali

1. Gemini 3.1 Flash TTS è un nuovo modello audio di Google DeepMind.
2. Introduce tag audio granulari per un controllo preciso della sintesi vocale.
3. Il modello consente la generazione audio espressiva.
4. Rappresenta la prossima generazione della tecnologia di sintesi vocale.
5. L'annuncio è stato fatto sul blog di Google DeepMind.
6. Il modello è progettato per applicazioni come l'accessibilità e la creazione di contenuti.
7. I tag audio granulari permettono agli utenti di dirigere l'output vocale.
8. Questo fa parte del lavoro in corso di DeepMind nell'audio generativo.

Google DeepMind presenta Gemini 3.1 Flash TTS con controllo audio granulare

Fatti principali

Entità

Istituzioni

Fonti