Modelli Video come Politiche Robot Generaliste tramite Dinamica Inversa
Un nuovo approccio da arXiv (2605.27817) propone l'uso di modelli video generativi come politiche robot generaliste senza fine-tuning. Invece di addestrare modelli di base robotici che predicono congiuntamente osservazioni e azioni, il metodo lascia invariato il pianificatore video e addestra un modello di dinamica inversa (IDM) specifico per l'embodiment. Questo disaccoppiamento consente al pianificatore video di rimanere agnostico rispetto all'embodiment, permette un facile scambio di diversi modelli video senza riaddestrare l'IDM e consente l'addestramento indipendente dell'IDM utilizzando dati di self-play. Il sistema combina un modello video del mondo senza azioni con un IDM attentamente progettato basato sullo Jacobiano dell'embodiment robotico, formando una politica video-azione a ciclo chiuso.
Fatti principali
- L'articolo arXiv 2605.27817 propone l'uso di modelli video generativi come politiche robot.
- L'approccio lascia invariato il pianificatore video e addestra un modello di dinamica inversa (IDM).
- L'IDM è specifico per l'embodiment e basato sullo Jacobiano dell'embodiment robotico.
- Il pianificatore video rimane agnostico rispetto all'embodiment.
- Diversi modelli video possono essere scambiati senza riaddestrare l'IDM.
- L'IDM può essere addestrato indipendentemente utilizzando dati di self-play.
- Il sistema forma una politica video-azione a ciclo chiuso.
- Il metodo evita il fine-tuning dei modelli video con dati etichettati per le azioni.
Entità
—