Khala: Un framework a due stadi per la generazione musicale ad alta fedeltà utilizzando modelli linguistici di token acustici
Un articolo di ricerca su arXiv (2605.01790) introduce Khala, un nuovo framework per la generazione musicale che modella sia la struttura che la fedeltà all'interno di una singola gerarchia profonda di token acustici. Il sistema utilizza una rappresentazione acustica a quantizzazione vettoriale residua (RVQ) a 64 livelli e un processo di generazione a due stadi dal grossolano al fine. Un modello backbone genera token acustici grossolani per l'intera traccia, seguito da un modello di super-risoluzione che raffina i token più fini strato per strato in parallelo nel tempo, risultando in un processo di inferenza fisso a 62 passi. Questo approccio mira a migliorare l'allineamento dei testi e la ricostruzione dei dettagli fini, sfidando il modello di progettazione comune di spazi di rappresentazione separati per struttura e fedeltà.
Fatti principali
- Khala utilizza una rappresentazione acustica RVQ a 64 livelli.
- Il framework ha un processo di generazione a due stadi dal grossolano al fine.
- Un modello backbone genera token acustici grossolani per l'intera traccia.
- Un modello di super-risoluzione raffina i token più fini all'interno dello stesso spazio di token acustici.
- Lo stadio di super-risoluzione opera su scala di traccia intera e funziona in parallelo nel tempo.
- Il processo di inferenza è fisso a 62 passi.
- L'articolo è disponibile su arXiv con ID 2605.01790.
- L'approccio mira a migliorare l'allineamento dei testi e la ricostruzione dei dettagli fini.
Entità
Istituzioni
- arXiv