ARTFEED — Contemporary Art Intelligence

Traduzione vocale in streaming con un SpeechLLM

ai-technology · 2026-05-16

Una nuova architettura basata su LLM consente la traduzione vocale in tempo reale, affrontando i problemi di latenza nei sistemi SpeechLLM esistenti. I sistemi tradizionali attendono un enunciato completo o emettono a intervalli fissi, risultando inadatti per applicazioni in tempo reale. Il modello proposto impara a decidere quando ha abbastanza audio per emettere token di output, addestrato utilizzando allineamenti automatici di parlato e testo. Esperimenti su più coppie linguistiche mostrano una qualità di traduzione vicina ai basamenti non in streaming, ma con latenza significativamente inferiore. Il lavoro è pubblicato su arXiv con identificatore 2605.14766.

Fatti principali

  • Architettura basata su LLM per la traduzione vocale in streaming in tempo reale.
  • Il sistema impara a decidere quando ha abbastanza audio per emettere token.
  • Addestrato utilizzando allineamenti automatici del parlato in input e del testo in output.
  • Esperimenti su diverse coppie linguistiche mostrano qualità vicina al basamento non in streaming.
  • Affronta i problemi di latenza nei sistemi SpeechLLM esistenti.
  • Pubblicato su arXiv con identificatore 2605.14766.
  • I sistemi esistenti attendono un enunciato completo o emettono a intervalli fissi.
  • Combina riconoscimento vocale e traduzione testo-testo in un unico modello.

Entità

Istituzioni

  • arXiv

Fonti