Traduzione vocale in streaming con un SpeechLLM

ai-technology · 2026-05-16

Una nuova architettura basata su LLM consente la traduzione vocale in tempo reale, affrontando i problemi di latenza nei sistemi SpeechLLM esistenti. I sistemi tradizionali attendono un enunciato completo o emettono a intervalli fissi, risultando inadatti per applicazioni in tempo reale. Il modello proposto impara a decidere quando ha abbastanza audio per emettere token di output, addestrato utilizzando allineamenti automatici di parlato e testo. Esperimenti su più coppie linguistiche mostrano una qualità di traduzione vicina ai basamenti non in streaming, ma con latenza significativamente inferiore. Il lavoro è pubblicato su arXiv con identificatore 2605.14766.

Fatti principali

Architettura basata su LLM per la traduzione vocale in streaming in tempo reale.
Il sistema impara a decidere quando ha abbastanza audio per emettere token.
Addestrato utilizzando allineamenti automatici del parlato in input e del testo in output.
Esperimenti su diverse coppie linguistiche mostrano qualità vicina al basamento non in streaming.
Affronta i problemi di latenza nei sistemi SpeechLLM esistenti.
Pubblicato su arXiv con identificatore 2605.14766.
I sistemi esistenti attendono un enunciato completo o emettono a intervalli fissi.
Combina riconoscimento vocale e traduzione testo-testo in un unico modello.

Traduzione vocale in streaming con un SpeechLLM

Fatti principali

Entità

Istituzioni

Fonti