VVS: Accelerare la Generazione Autoregressiva Visiva tramite Salto della Verifica
I ricercatori propongono VVS, un nuovo framework di decodifica speculativa che accelera i modelli di generazione autoregressiva visiva (AR) saltando i passaggi di verifica. I modelli AR visivi, nonostante le forti capacità di generazione di immagini, soffrono di un'elevata latenza di inferenza a causa del loro paradigma di previsione del token successivo. La decodifica speculativa tradizionale utilizza un approccio 'bozza un passo, poi verifica un passo', che non riduce il numero di passaggi forward. Sfruttando l'intercambiabilità dei token visivi, VVS taglia esplicitamente i passaggi forward del modello target. Il metodo si basa su due osservazioni: ridondanza della verifica e riutilizzabilità delle feature obsolete, che aiutano a mantenere la qualità della generazione migliorando la velocità. Il lavoro è pubblicato su arXiv con ID 2511.13587.
Fatti principali
- 1. VVS è un framework di decodifica speculativa per la generazione autoregressiva visiva.
- 2. Riduce la latenza di inferenza saltando i passaggi di verifica.
- 3. I modelli AR visivi utilizzano un paradigma di previsione del token successivo.
- 4. La decodifica speculativa tradizionale non riduce i passaggi forward.
- 5. VVS sfrutta l'intercambiabilità dei token visivi.
- 6. Due osservazioni chiave: ridondanza della verifica e riutilizzabilità delle feature obsolete.
- 7. L'articolo è su arXiv con ID 2511.13587.
- 8. Il tipo di annuncio è replace-cross.
Entità
Istituzioni
- arXiv