BandTok: un tokenizzatore 2D di mel-spettrogrammi per la generazione musicale
Un team di ricercatori ha presentato BandTok, un tokenizzatore 2D di mel-spettrogrammi progettato per migliorare la generazione musicale per diverse generazioni. A differenza dei codec ad alta fedeltà attuali che si basano sulla quantizzazione residua multi-codebook, BandTok utilizza token di bande di frequenza Mel provenienti da un unico codebook condiviso per ogni frame. Ciò produce una griglia di token tempo-frequenza fisicamente interpretabile e con una struttura token più indipendente, riducendo le dipendenze sequenziali e l'accumulo di errori. BandTok migliora la ricostruzione attraverso un obiettivo PatchGAN multi-scala e aggiornamenti EMA del codebook. Inoltre, gli autori presentano un modello linguistico autoregressivo che incorpora la 2D Rotary Position Embedding (2D RoPE) per mantenere la struttura delle bande temporali e di frequenza durante la generazione. L'articolo completo è disponibile su arXiv.
Fatti principali
- BandTok è un tokenizzatore 2D di mel-spettrogrammi per la generazione musicale.
- Utilizza un unico codebook condiviso per i token delle bande di frequenza Mel.
- Il tokenizzatore crea una griglia di token tempo-frequenza.
- Impiega PatchGAN multi-scala e aggiornamenti EMA del codebook.
- Il modello linguistico utilizza la 2D Rotary Position Embedding (2D RoPE).
- L'articolo è su arXiv con ID 2605.15831.
- Affronta l'accumulo di errori nella quantizzazione residua multi-codebook.
- L'approccio è orientato alla generazione per la modellazione autoregressiva.
Entità
Istituzioni
- arXiv