ARTFEED — Contemporary Art Intelligence

DOA: Politica di Attenzione Solo Decoder Senza Addestramento per la Traduzione Simultanea di Lunga Durata con SpeechLLM

ai-technology · 2026-06-01

Una nuova politica senza addestramento chiamata Decoder-Only Attention (DOA) consente la traduzione simultanea da voce a testo di lunga durata utilizzando modelli linguistici vocali (SpeechLLM) già pronti. Gli attuali sistemi di traduzione simultanea si basano su modelli encoder-decoder con attenzione incrociata per l'allineamento, ma gli SpeechLLM sono solo decoder e utilizzano l'auto-attenzione. DOA deriva un allineamento proxy dall'auto-attenzione, consentendo decisioni in streaming senza addestramento aggiuntivo. L'approccio affronta la mancanza di validazione in contesti di lunga durata ed evita le politiche euristiche wait-k. L'articolo è disponibile su arXiv con riferimento 2605.31432.

Fatti principali

  • DOA è una politica senza addestramento per la traduzione simultanea.
  • Utilizza SpeechLLM solo decoder senza attenzione incrociata.
  • La politica deriva l'allineamento dall'auto-attenzione.
  • Consente la traduzione simultanea di lunga durata.
  • I metodi attuali si basano su modelli encoder-decoder o wait-k euristico.
  • L'approccio è validato su modelli già pronti.
  • L'articolo è su arXiv (2605.31432).
  • Affronta la lacuna nei contesti di lunga durata.

Entità

Istituzioni

  • arXiv

Fonti