ARTFEED — Contemporary Art Intelligence

Prologue Method Colma il Divario Ricostruzione-Generazione nella Generazione di Immagini AR

ai-technology · 2026-05-09

I ricercatori hanno introdotto Prologue, un metodo innovativo per la generazione di immagini autoregressiva (AR) che separa i processi di ricostruzione e generazione aggiungendo una breve sequenza di token prologo all'array di token visivi. Questi token prologo vengono addestrati esclusivamente utilizzando la perdita di entropia incrociata AR, mentre i token visivi si concentrano sulla ricostruzione. Nei test su ImageNet 256x256, Prologue-Base riduce il gFID da 21.01 a 10.75 senza la necessità di guida senza classificatore, mantenendo quasi lo stesso livello di ricostruzione. Prologue-Large raggiunge un notevole rFID di 0.99 e gFID di 1.46, utilizzando un modello AR standard senza alcuna supervisione semantica aggiuntiva. L'approccio è definito dal punto di vista dell'ELBO.

Fatti principali

  • Prologue è proposto per colmare il divario ricostruzione-generazione nella generazione di immagini autoregressiva.
  • Prologue genera un piccolo insieme di token prologo preposti alla sequenza di token visivi.
  • I token prologo sono addestrati esclusivamente con la perdita di entropia incrociata AR.
  • I token visivi rimangono dedicati alla ricostruzione.
  • Su ImageNet 256x256, Prologue-Base riduce il gFID da 21.01 a 10.75 senza guida senza classificatore.
  • Prologue-Large raggiunge un rFID di 0.99 e un gFID di 1.46 utilizzando un modello AR standard.
  • L'approccio è formalizzato da una prospettiva ELBO.
  • Nessuna supervisione semantica ausiliaria viene utilizzata per Prologue-Large.

Entità

Fonti