TC-WM: Modelli del Mondo Compatti da Modelli Fondamentali Visivi
Il framework TC-WM è stato sviluppato per affrontare il problema di derivare modelli del mondo compatti da modelli fondamentali visivi per una pianificazione e un controllo efficaci. Mentre i modelli del mondo consentono agli agenti di prevedere le dinamiche future in base alle loro azioni, le rappresentazioni attuali sono derivate da dati pixel privi di profondità semantica o tratte da modelli fondamentali statici che contengono dettagli non necessari. Ciò rappresenta una sfida significativa negli scenari offline senza ricompensa, dove il modello apprende da traiettorie predeterminate senza guida di ricompensa o interazione in tempo reale. TC-WM utilizza lo spazio di embedding preaddestrato come base semantica, proiettando embedding visivi ad alta dimensionalità in uno spazio dinamico latente più compatto. Questo metodo mira a generare rappresentazioni di stato adeguate per i successivi compiti di pianificazione e controllo. L'articolo è disponibile su arXiv con identificativo 2605.25620.
Fatti principali
- TC-WM è un framework per trasformare gli embedding di modelli fondamentali in rappresentazioni del mondo compatte e sufficienti per i compiti.
- Affronta la sfida di apprendere modelli del mondo in contesti offline senza ricompensa.
- Il progetto chiave è trattare lo spazio di embedding preaddestrato come un'impalcatura semantica.
- TC-WM proietta linearmente embedding visivi ad alta dimensionalità in uno spazio latente compatto.
- L'articolo è disponibile su arXiv con identificativo 2605.25620.
- I modelli del mondo consentono agli agenti di prevedere le dinamiche future condizionate dalle azioni.
- Le rappresentazioni esistenti sono apprese dai pixel o ereditate da modelli fondamentali congelati.
- L'approccio mira a migliorare la pianificazione e il controllo nei compiti downstream.
Entità
Istituzioni
- arXiv