La corrispondenza dei token migliora la coerenza del modello del mondo
Un nuovo approccio alla previsione del fotogramma successivo nei modelli del mondo basati su transformer affronta problemi di incoerenza temporale come la duplicazione e la scomparsa di oggetti. Formulando la previsione come inferenza probabilistica strutturata con variabili latenti di corrispondenza dei token, il modello copia un token dal fotogramma precedente o ne genera uno nuovo. Il metodo raggiunge prestazioni all'avanguardia su quattro benchmark, tra cui un ritorno del 72,5% e un punteggio del 35,6% su Craftax-classic, superando i precedenti migliori del 67,4% e 27,9%. Il codice sorgente è stato rilasciato.
Fatti principali
- I modelli del mondo basati su transformer soffrono di incoerenza temporale in rollout a lungo orizzonte.
- I problemi includono duplicazione, scomparsa e trasmutazione di oggetti.
- Gli approcci esistenti trattano la previsione del fotogramma successivo come generazione di token senza corrispondenza temporale.
- Il nuovo metodo modella la previsione del fotogramma successivo come inferenza probabilistica strutturata con corrispondenza latente dei token.
- Ogni token del fotogramma successivo è spiegato copiando dal fotogramma precedente o generando un nuovo token.
- Raggiunge prestazioni all'avanguardia su 4 benchmark impegnativi.
- Craftax-classic: 72,5% di ritorno e 35,6% di punteggio (precedente migliori 67,4% e 27,9%).
- Il codice sorgente è stato rilasciato.
Entità
—