ARTFEED — Contemporary Art Intelligence

Framework Edge-Cloud per la Traduzione Vocale che Preserva la Privacy

ai-technology · 2026-05-28

I ricercatori propongono ESRT (Edge-cloud Speech Recognition and Translation), un framework collaborativo edge-cloud MLLM per la traduzione da voce a testo. Utilizza un'architettura di inferenza divisa con un encoder leggero sul dispositivo, trasmettendo caratteristiche intermedie compresse al cloud, prevenendo la fuga di impronte vocali e riducendo la larghezza di banda fino a 10 volte. Questo affronta i rischi per la privacy e i colli di bottiglia della larghezza di banda dei sistemi cloud centralizzati, nonché i vincoli di risorse dei modelli on-device, puntando a superare i pregiudizi incentrati sull'inglese per il scaling della traduzione molti-a-molti.

Fatti principali

  • ESRT sta per Edge-cloud Speech Recognition and Translation.
  • È un framework collaborativo edge-cloud MLLM.
  • Utilizza un'architettura di inferenza divisa.
  • Un encoder vocale leggero e un adattatore rimangono sul dispositivo.
  • Solo caratteristiche intermedie altamente compresse vengono trasmesse al cloud.
  • Ciò previene la fuga di impronte vocali.
  • I requisiti di larghezza di banda sono ridotti fino a 10 volte.
  • Il framework mira a superare i pregiudizi incentrati sull'inglese per la traduzione molti-a-molti.

Entità

Istituzioni

  • arXiv

Fonti