LoSATok: Tokenizzatore Audio a Bassa Dimensionalità per Comprensione e Generazione Cross-Dominio

ai-technology · 2026-05-28

I ricercatori propongono LoSATok, un tokenizzatore audio a bassa dimensionalità progettato per unificare comprensione e generazione audio attraverso diversi domini. I tokenizzatori unificati tradizionali codificano sia i dettagli semantici che acustici in variabili latenti continue ad alta dimensionalità, aumentando il carico di modellazione per i Diffusion Transformers (DiT). LoSATok introduce un Collo di Bottiglia Semantico che comprime le caratteristiche dell'encoder semantico da 1280 dimensioni a 128, regolarizzato da una perdita di relazione temporale per la coerenza temporale delle caratteristiche. Un metodo di supervisione semantica a due livelli sfrutta segnali semantici ad alta e bassa dimensionalità, consentendo la cattura congiunta di semantica e dettagli acustici in uno spazio latente compatto. L'approccio è motivato dall'osservazione che le caratteristiche semantiche ad alta dimensionalità sono comprimibili. Il lavoro è pubblicato su arXiv con ID 2605.27840.

Fatti principali

LoSATok è un tokenizzatore audio a bassa dimensionalità per comprensione e generazione audio cross-dominio.
Comprime le caratteristiche dell'encoder semantico da 1280 dimensioni a 128 utilizzando un Collo di Bottiglia Semantico.
Una perdita di relazione temporale regolarizza la coerenza temporale delle caratteristiche.
La supervisione semantica a due livelli utilizza segnali semantici ad alta e bassa dimensionalità.
Il tokenizzatore mira a ridurre il carico di modellazione sui Diffusion Transformers (DiT).
Il lavoro è pubblicato su arXiv con ID 2605.27840.
L'approccio si basa sull'osservazione che le caratteristiche semantiche ad alta dimensionalità sono comprimibili.
LoSATok unifica comprensione e generazione audio in uno spazio latente compatto.

LoSATok: Tokenizzatore Audio a Bassa Dimensionalità per Comprensione e Generazione Cross-Dominio

Fatti principali

Entità

Istituzioni

Fonti