Nano World Models: Codebase minimalista per la previsione video futura
Una nuova codebase minimalista, denominata Nano World Models, si concentra sulla ricerca di previsione video futura. Enfatizza il diffusion forcing e offre un'interfaccia coesa per vari obiettivi generativi, scale di modello, condizionamento delle azioni, spazi di osservazione latenti, dataset, metodi di valutazione e rollout a lungo termine. L'iniziativa mira a facilitare indagini controllate sugli elementi di modellazione del mondo che sono spesso intrecciati in diverse implementazioni. Gli esperimenti includono ambienti di controllo semplici, simulazioni di giochi e dati reali da robot. Questa codebase è progettata per essere compatta, riproducibile e facilmente estendibile, colmando una lacuna nella comunità di ricerca nonostante i rapidi progressi nella generazione video interattiva a livello industriale. Questo lavoro è dettagliato nel preprint arXiv 2605.23993.
Fatti principali
- Nano World Models è una codebase minimalista per la previsione video futura.
- Si basa sul diffusion forcing.
- Fornisce un'interfaccia unificata per obiettivi generativi, scale di modello, condizionamento delle azioni, spazi di osservazione latenti, dataset, protocolli di valutazione e rollout a lungo orizzonte.
- Consente studi controllati dei componenti di modellazione del mondo.
- Esperimenti condotti su ambienti di controllo semplici, simulazioni di giochi e dati reali da robot.
- Risponde alla mancanza di implementazioni compatte, riproducibili ed estendibili nella comunità di ricerca.
- Pubblicato come preprint arXiv 2605.23993.
Entità
Istituzioni
- arXiv