Framework Edge-Cloud per la Traduzione Vocale che Preserva la Privacy

ai-technology · 2026-05-28

I ricercatori propongono ESRT (Edge-cloud Speech Recognition and Translation), un framework collaborativo edge-cloud MLLM per la traduzione da voce a testo. Utilizza un'architettura di inferenza divisa con un encoder leggero sul dispositivo, trasmettendo caratteristiche intermedie compresse al cloud, prevenendo la fuga di impronte vocali e riducendo la larghezza di banda fino a 10 volte. Questo affronta i rischi per la privacy e i colli di bottiglia della larghezza di banda dei sistemi cloud centralizzati, nonché i vincoli di risorse dei modelli on-device, puntando a superare i pregiudizi incentrati sull'inglese per il scaling della traduzione molti-a-molti.

Fatti principali

ESRT sta per Edge-cloud Speech Recognition and Translation.
È un framework collaborativo edge-cloud MLLM.
Utilizza un'architettura di inferenza divisa.
Un encoder vocale leggero e un adattatore rimangono sul dispositivo.
Solo caratteristiche intermedie altamente compresse vengono trasmesse al cloud.
Ciò previene la fuga di impronte vocali.
I requisiti di larghezza di banda sono ridotti fino a 10 volte.
Il framework mira a superare i pregiudizi incentrati sull'inglese per la traduzione molti-a-molti.

Framework Edge-Cloud per la Traduzione Vocale che Preserva la Privacy

Fatti principali

Entità

Istituzioni

Fonti