LoSATok: Tokenizzatore Audio a Bassa Dimensionalità per Comprensione e Generazione Cross-Dominio
I ricercatori propongono LoSATok, un tokenizzatore audio a bassa dimensionalità progettato per unificare comprensione e generazione audio attraverso diversi domini. I tokenizzatori unificati tradizionali codificano sia i dettagli semantici che acustici in variabili latenti continue ad alta dimensionalità, aumentando il carico di modellazione per i Diffusion Transformers (DiT). LoSATok introduce un Collo di Bottiglia Semantico che comprime le caratteristiche dell'encoder semantico da 1280 dimensioni a 128, regolarizzato da una perdita di relazione temporale per la coerenza temporale delle caratteristiche. Un metodo di supervisione semantica a due livelli sfrutta segnali semantici ad alta e bassa dimensionalità, consentendo la cattura congiunta di semantica e dettagli acustici in uno spazio latente compatto. L'approccio è motivato dall'osservazione che le caratteristiche semantiche ad alta dimensionalità sono comprimibili. Il lavoro è pubblicato su arXiv con ID 2605.27840.
Fatti principali
- LoSATok è un tokenizzatore audio a bassa dimensionalità per comprensione e generazione audio cross-dominio.
- Comprime le caratteristiche dell'encoder semantico da 1280 dimensioni a 128 utilizzando un Collo di Bottiglia Semantico.
- Una perdita di relazione temporale regolarizza la coerenza temporale delle caratteristiche.
- La supervisione semantica a due livelli utilizza segnali semantici ad alta e bassa dimensionalità.
- Il tokenizzatore mira a ridurre il carico di modellazione sui Diffusion Transformers (DiT).
- Il lavoro è pubblicato su arXiv con ID 2605.27840.
- L'approccio si basa sull'osservazione che le caratteristiche semantiche ad alta dimensionalità sono comprimibili.
- LoSATok unifica comprensione e generazione audio in uno spazio latente compatto.
Entità
Istituzioni
- arXiv