Framework Edge-Cloud per la Traduzione Vocale che Preserva la Privacy
I ricercatori propongono ESRT (Edge-cloud Speech Recognition and Translation), un framework collaborativo edge-cloud MLLM per la traduzione da voce a testo. Utilizza un'architettura di inferenza divisa con un encoder leggero sul dispositivo, trasmettendo caratteristiche intermedie compresse al cloud, prevenendo la fuga di impronte vocali e riducendo la larghezza di banda fino a 10 volte. Questo affronta i rischi per la privacy e i colli di bottiglia della larghezza di banda dei sistemi cloud centralizzati, nonché i vincoli di risorse dei modelli on-device, puntando a superare i pregiudizi incentrati sull'inglese per il scaling della traduzione molti-a-molti.
Fatti principali
- ESRT sta per Edge-cloud Speech Recognition and Translation.
- È un framework collaborativo edge-cloud MLLM.
- Utilizza un'architettura di inferenza divisa.
- Un encoder vocale leggero e un adattatore rimangono sul dispositivo.
- Solo caratteristiche intermedie altamente compresse vengono trasmesse al cloud.
- Ciò previene la fuga di impronte vocali.
- I requisiti di larghezza di banda sono ridotti fino a 10 volte.
- Il framework mira a superare i pregiudizi incentrati sull'inglese per la traduzione molti-a-molti.
Entità
Istituzioni
- arXiv