Quantizzazione a Dimensione Variabile del Codebook per la Generazione Visiva Autoregressiva

ai-technology · 2026-05-09

Un nuovo articolo su arXiv (2605.06207) identifica una limitazione fondamentale nei tokenizer visivi discreti che utilizzano una dimensione costante del codebook per tutte le posizioni della sequenza. Gli autori osservano che su ImageNet con K=16384, l'entropia condizionale per posizione diminuisce così rapidamente che dopo solo 2 posizioni su 256, la distribuzione diventa quasi deterministica, trasformando le restanti 254 posizioni in un problema di memorizzazione. Formalizzano questo come "Entropy Cliff" con l'espressione t* = ceil(log2 N / log2 K). È interessante notare che questo fenomeno non si verifica nel linguaggio a causa della sua struttura naturale che mantiene l'entropia effettiva per posizione al di sotto della capacità del codebook. Per affrontare questo problema, l'articolo propone la Quantizzazione a Dimensione Variabile del Codebook, che adatta la dimensione del codebook per posizione in modo da corrispondere all'entropia disponibile.

Fatti principali

ID articolo: arXiv:2605.06207
Tipo di annuncio: cross
Il design a codebook costante raggiunge un limite teorico dell'informazione
L'entropia condizionale per posizione decade rapidamente lungo la sequenza
Su ImageNet con K=16384, l'entropy cliff si verifica entro 2 posizioni su 256
Le restanti 254 posizioni diventano un problema di memorizzazione
Formalizzato come t* = ceil(log2 N / log2 K)
Fenomeno non osservato nel linguaggio
Soluzione proposta: Quantizzazione a Dimensione Variabile del Codebook

Quantizzazione a Dimensione Variabile del Codebook per la Generazione Visiva Autoregressiva

Fatti principali

Entità

Istituzioni

Fonti