ARTFEED — Contemporary Art Intelligence

La corrispondenza dei token migliora la coerenza del modello del mondo

ai-technology · 2026-05-20

Un nuovo approccio alla previsione del fotogramma successivo nei modelli del mondo basati su transformer affronta problemi di incoerenza temporale come la duplicazione e la scomparsa di oggetti. Formulando la previsione come inferenza probabilistica strutturata con variabili latenti di corrispondenza dei token, il modello copia un token dal fotogramma precedente o ne genera uno nuovo. Il metodo raggiunge prestazioni all'avanguardia su quattro benchmark, tra cui un ritorno del 72,5% e un punteggio del 35,6% su Craftax-classic, superando i precedenti migliori del 67,4% e 27,9%. Il codice sorgente è stato rilasciato.

Fatti principali

  • I modelli del mondo basati su transformer soffrono di incoerenza temporale in rollout a lungo orizzonte.
  • I problemi includono duplicazione, scomparsa e trasmutazione di oggetti.
  • Gli approcci esistenti trattano la previsione del fotogramma successivo come generazione di token senza corrispondenza temporale.
  • Il nuovo metodo modella la previsione del fotogramma successivo come inferenza probabilistica strutturata con corrispondenza latente dei token.
  • Ogni token del fotogramma successivo è spiegato copiando dal fotogramma precedente o generando un nuovo token.
  • Raggiunge prestazioni all'avanguardia su 4 benchmark impegnativi.
  • Craftax-classic: 72,5% di ritorno e 35,6% di punteggio (precedente migliori 67,4% e 27,9%).
  • Il codice sorgente è stato rilasciato.

Entità

Fonti