Quantizzazione a Dimensione Variabile del Codebook per la Generazione Visiva Autoregressiva
Un nuovo articolo su arXiv (2605.06207) identifica una limitazione fondamentale nei tokenizer visivi discreti che utilizzano una dimensione costante del codebook per tutte le posizioni della sequenza. Gli autori osservano che su ImageNet con K=16384, l'entropia condizionale per posizione diminuisce così rapidamente che dopo solo 2 posizioni su 256, la distribuzione diventa quasi deterministica, trasformando le restanti 254 posizioni in un problema di memorizzazione. Formalizzano questo come "Entropy Cliff" con l'espressione t* = ceil(log2 N / log2 K). È interessante notare che questo fenomeno non si verifica nel linguaggio a causa della sua struttura naturale che mantiene l'entropia effettiva per posizione al di sotto della capacità del codebook. Per affrontare questo problema, l'articolo propone la Quantizzazione a Dimensione Variabile del Codebook, che adatta la dimensione del codebook per posizione in modo da corrispondere all'entropia disponibile.
Fatti principali
- ID articolo: arXiv:2605.06207
- Tipo di annuncio: cross
- Il design a codebook costante raggiunge un limite teorico dell'informazione
- L'entropia condizionale per posizione decade rapidamente lungo la sequenza
- Su ImageNet con K=16384, l'entropy cliff si verifica entro 2 posizioni su 256
- Le restanti 254 posizioni diventano un problema di memorizzazione
- Formalizzato come t* = ceil(log2 N / log2 K)
- Fenomeno non osservato nel linguaggio
- Soluzione proposta: Quantizzazione a Dimensione Variabile del Codebook
Entità
Istituzioni
- arXiv