DOA: Politica di Attenzione Solo Decoder Senza Addestramento per la Traduzione Simultanea di Lunga Durata con SpeechLLM
Una nuova politica senza addestramento chiamata Decoder-Only Attention (DOA) consente la traduzione simultanea da voce a testo di lunga durata utilizzando modelli linguistici vocali (SpeechLLM) già pronti. Gli attuali sistemi di traduzione simultanea si basano su modelli encoder-decoder con attenzione incrociata per l'allineamento, ma gli SpeechLLM sono solo decoder e utilizzano l'auto-attenzione. DOA deriva un allineamento proxy dall'auto-attenzione, consentendo decisioni in streaming senza addestramento aggiuntivo. L'approccio affronta la mancanza di validazione in contesti di lunga durata ed evita le politiche euristiche wait-k. L'articolo è disponibile su arXiv con riferimento 2605.31432.
Fatti principali
- DOA è una politica senza addestramento per la traduzione simultanea.
- Utilizza SpeechLLM solo decoder senza attenzione incrociata.
- La politica deriva l'allineamento dall'auto-attenzione.
- Consente la traduzione simultanea di lunga durata.
- I metodi attuali si basano su modelli encoder-decoder o wait-k euristico.
- L'approccio è validato su modelli già pronti.
- L'articolo è su arXiv (2605.31432).
- Affronta la lacuna nei contesti di lunga durata.
Entità
Istituzioni
- arXiv