Il framework DIAL disaccoppia intenzione e azione nei modelli VLA
I ricercatori hanno introdotto DIAL, un framework per modelli Vision-Language-Action (VLA) che separa il processo decisionale di alto livello dall'esecuzione motoria di basso livello. A differenza dei VLA end-to-end esistenti che trattano i modelli Vision-Language (VLM) principalmente come codificatori multimodali, DIAL utilizza un System-2 basato su VLM per la modellazione del mondo latente, sintetizzando una preveggenza visiva nello spazio delle feature nativo del VLM. Questa preveggenza codifica l'intenzione e funge da collo di bottiglia strutturale. Una politica leggera System-1 decodifica quindi questa intenzione in azioni. L'approccio affronta l'instabilità dell'addestramento e il sottoutilizzo delle rappresentazioni semantiche dei VLM. L'articolo è disponibile su arXiv con identificatore 2603.29844.
Fatti principali
- DIAL sta per Decoupling Intent and Action via Latent World Modeling (Disaccoppiamento di Intenzione e Azione tramite Modellazione del Mondo Latente).
- Il framework è destinato ai modelli Vision-Language-Action (VLA) end-to-end.
- Utilizza un System-2 basato su VLM per la modellazione del mondo latente.
- System-2 sintetizza una preveggenza visiva latente nello spazio delle feature nativo del VLM.
- La preveggenza codifica l'intenzione e funge da collo di bottiglia strutturale.
- Una politica leggera System-1 decodifica l'intenzione in azioni di basso livello.
- L'approccio mira a ridurre l'instabilità dell'addestramento e a utilizzare meglio le capacità dei VLM.
- L'articolo è pubblicato su arXiv con ID 2603.29844.
Entità
Istituzioni
- arXiv