DOA: Politica di Attenzione Solo Decoder Senza Addestramento per la Traduzione Simultanea di Lunga Durata con SpeechLLM

ai-technology · 2026-06-01

Una nuova politica senza addestramento chiamata Decoder-Only Attention (DOA) consente la traduzione simultanea da voce a testo di lunga durata utilizzando modelli linguistici vocali (SpeechLLM) già pronti. Gli attuali sistemi di traduzione simultanea si basano su modelli encoder-decoder con attenzione incrociata per l'allineamento, ma gli SpeechLLM sono solo decoder e utilizzano l'auto-attenzione. DOA deriva un allineamento proxy dall'auto-attenzione, consentendo decisioni in streaming senza addestramento aggiuntivo. L'approccio affronta la mancanza di validazione in contesti di lunga durata ed evita le politiche euristiche wait-k. L'articolo è disponibile su arXiv con riferimento 2605.31432.

Fatti principali

DOA è una politica senza addestramento per la traduzione simultanea.
Utilizza SpeechLLM solo decoder senza attenzione incrociata.
La politica deriva l'allineamento dall'auto-attenzione.
Consente la traduzione simultanea di lunga durata.
I metodi attuali si basano su modelli encoder-decoder o wait-k euristico.
L'approccio è validato su modelli già pronti.
L'articolo è su arXiv (2605.31432).
Affronta la lacuna nei contesti di lunga durata.

DOA: Politica di Attenzione Solo Decoder Senza Addestramento per la Traduzione Simultanea di Lunga Durata con SpeechLLM

Fatti principali

Entità

Istituzioni

Fonti