Il Flusso del Gradiente di Wasserstein Migliora l'Addestramento del Tokenizer per Immagini Discrete

ai-technology · 2026-05-09

Un recente articolo su arXiv (2605.06148) presenta un nuovo approccio per allineare i tokenizer di immagini discrete con i priori autoregressivi (AR) durante l'intero processo di addestramento. Il tradizionale addestramento in due fasi si concentra prima sulla ricostruzione, seguita dall'adattamento di un modello a priori a sequenze di token statiche. Questo spesso porta a una discrepanza, poiché i token conservano i dettagli dell'immagine ma sono difficili da prevedere per i modelli AR. Gli autori indagano questo problema utilizzando la Coerenza Variazionale Tripartita (TVC), che scompone l'apprendimento delle variabili latenti in tre condizioni essenziali: verosimiglianza condizionale, coerenza a priori e a posteriori. Dimostrano che l'addestramento in due fasi garantisce solo la prima condizione, trascurando la coerenza a priori. Per affrontare questo problema, introducono un segnale di corrispondenza a priori a livello di distribuzione tramite il flusso del gradiente di Wasserstein durante l'addestramento del tokenizer, consentendo al tokenizer di produrre token che siano sia ricostruttivi che facilmente prevedibili. Il loro metodo viene testato su benchmark standard di generazione di immagini, indicando un miglioramento nell'adattamento del prior AR e nella qualità della generazione.

Fatti principali

L'articolo arXiv:2605.06148 propone il flusso del gradiente di Wasserstein per l'addestramento del tokenizer di immagini discrete.
L'addestramento tradizionale in due fasi del tokenizer disaccoppia la ricostruzione e l'adattamento del prior, causando una discrepanza.
Il framework di Coerenza Variazionale Tripartita (TVC) identifica tre condizioni di coerenza.
L'addestramento in due fasi soddisfa solo la coerenza di verosimiglianza condizionale, non la coerenza a priori.
Il nuovo metodo aggiunge un segnale di corrispondenza a priori a livello di distribuzione durante l'addestramento del tokenizer.
Il flusso del gradiente di Wasserstein viene utilizzato per allineare le distribuzioni dei token con i priori AR.
L'approccio migliora l'adattamento del prior AR e la qualità della generazione su benchmark standard.
L'articolo è classificato come cross (visione artificiale e apprendimento automatico).

Il Flusso del Gradiente di Wasserstein Migliora l'Addestramento del Tokenizer per Immagini Discrete

Fatti principali

Entità

Istituzioni

Fonti