Traduzione vocale in streaming con un SpeechLLM
Una nuova architettura basata su LLM consente la traduzione vocale in tempo reale, affrontando i problemi di latenza nei sistemi SpeechLLM esistenti. I sistemi tradizionali attendono un enunciato completo o emettono a intervalli fissi, risultando inadatti per applicazioni in tempo reale. Il modello proposto impara a decidere quando ha abbastanza audio per emettere token di output, addestrato utilizzando allineamenti automatici di parlato e testo. Esperimenti su più coppie linguistiche mostrano una qualità di traduzione vicina ai basamenti non in streaming, ma con latenza significativamente inferiore. Il lavoro è pubblicato su arXiv con identificatore 2605.14766.
Fatti principali
- Architettura basata su LLM per la traduzione vocale in streaming in tempo reale.
- Il sistema impara a decidere quando ha abbastanza audio per emettere token.
- Addestrato utilizzando allineamenti automatici del parlato in input e del testo in output.
- Esperimenti su diverse coppie linguistiche mostrano qualità vicina al basamento non in streaming.
- Affronta i problemi di latenza nei sistemi SpeechLLM esistenti.
- Pubblicato su arXiv con identificatore 2605.14766.
- I sistemi esistenti attendono un enunciato completo o emettono a intervalli fissi.
- Combina riconoscimento vocale e traduzione testo-testo in un unico modello.
Entità
Istituzioni
- arXiv