LATTE: Un Tokenizzatore Audio Latente per l'Editing nello Spazio dei Token

other · 2026-05-13

I ricercatori propongono il Latent Audio Tokenizer for Token-space Editing (LATTE), un nuovo codec audio neurale che aggiunge token latenti apprendibili alle sequenze di caratteristiche audio, creando un collo di bottiglia compatto non allineato temporalmente. Questo design consente interventi nello spazio dei token, come lo scambio di posizioni dei token tra enunciati per modificare attributi globali come l'identità del parlante e il rumore di fondo, mantenendo una qualità di ricostruzione competitiva nella codifica vocale a basso bitrate.

Fatti principali

LATTE aggiunge un insieme fisso di token latenti apprendibili alle sequenze di caratteristiche audio.
Solo i token latenti vengono mantenuti per la quantizzazione e la decodifica.
Il collo di bottiglia non è allineato temporalmente e aggrega informazioni globali sull'intero enunciato.
Gli interventi nello spazio dei token consentono di scambiare le posizioni dei token latenti tra enunciati.
Lo scambio di token modifica attributi globali come l'identità del parlante e il rumore di fondo.
La qualità di ricostruzione competitiva viene preservata in contesti di codifica vocale a basso bitrate.

Entità

—

Fonti

arXiv cs.AI — 2026-05-13