Q2D2: Un Nuovo Metodo di Quantizzazione per Codec Audio Neurali
I ricercatori hanno introdotto la Quantizzazione Bidimensionale (Q2D2), un nuovo schema di quantizzazione per codec audio neurali che proietta coppie di caratteristiche su griglie 2D strutturate come tassellature esagonali, rombiche o rettangolari. A differenza dei metodi convenzionali come la Quantizzazione Vettoriale Residua (RVQ), la Quantizzazione Vettoriale (VQ) e la Quantizzazione Scalare Finita (FSQ), Q2D2 preserva la struttura geometrica dello spazio latente e migliora la cattura delle correlazioni tra le caratteristiche. Ciò porta a un migliore apprendimento delle rappresentazioni, un migliore utilizzo del codebook e tassi di token inferiori. Il metodo raggiunge dimensioni del codebook paragonabili agli approcci tradizionali, migliorando al contempo l'efficienza della compressione audio. L'articolo è disponibile su arXiv con identificatore 2512.01537.
Fatti principali
- Q2D2 proietta coppie di caratteristiche su griglie 2D strutturate
- I tipi di griglia includono tassellature esagonali, rombiche e rettangolari
- Q2D2 migliora rispetto ai metodi RVQ, VQ e FSQ
- Migliora la struttura geometrica dello spazio latente
- Migliora la cattura delle correlazioni tra le caratteristiche
- Raggiunge tassi di token inferiori
- Dimensioni del codebook paragonabili ai metodi convenzionali
- Articolo disponibile su arXiv: 2512.01537
Entità
Istituzioni
- arXiv