Prologue Method Colma il Divario Ricostruzione-Generazione nella Generazione di Immagini AR

ai-technology · 2026-05-09

I ricercatori hanno introdotto Prologue, un metodo innovativo per la generazione di immagini autoregressiva (AR) che separa i processi di ricostruzione e generazione aggiungendo una breve sequenza di token prologo all'array di token visivi. Questi token prologo vengono addestrati esclusivamente utilizzando la perdita di entropia incrociata AR, mentre i token visivi si concentrano sulla ricostruzione. Nei test su ImageNet 256x256, Prologue-Base riduce il gFID da 21.01 a 10.75 senza la necessità di guida senza classificatore, mantenendo quasi lo stesso livello di ricostruzione. Prologue-Large raggiunge un notevole rFID di 0.99 e gFID di 1.46, utilizzando un modello AR standard senza alcuna supervisione semantica aggiuntiva. L'approccio è definito dal punto di vista dell'ELBO.

Fatti principali

Prologue è proposto per colmare il divario ricostruzione-generazione nella generazione di immagini autoregressiva.
Prologue genera un piccolo insieme di token prologo preposti alla sequenza di token visivi.
I token prologo sono addestrati esclusivamente con la perdita di entropia incrociata AR.
I token visivi rimangono dedicati alla ricostruzione.
Su ImageNet 256x256, Prologue-Base riduce il gFID da 21.01 a 10.75 senza guida senza classificatore.
Prologue-Large raggiunge un rFID di 0.99 e un gFID di 1.46 utilizzando un modello AR standard.
L'approccio è formalizzato da una prospettiva ELBO.
Nessuna supervisione semantica ausiliaria viene utilizzata per Prologue-Large.

Entità

—

Fonti

arXiv cs.AI — 2026-05-09