Il framework DIAL disaccoppia intenzione e azione nei modelli VLA

ai-technology · 2026-04-30

I ricercatori hanno introdotto DIAL, un framework per modelli Vision-Language-Action (VLA) che separa il processo decisionale di alto livello dall'esecuzione motoria di basso livello. A differenza dei VLA end-to-end esistenti che trattano i modelli Vision-Language (VLM) principalmente come codificatori multimodali, DIAL utilizza un System-2 basato su VLM per la modellazione del mondo latente, sintetizzando una preveggenza visiva nello spazio delle feature nativo del VLM. Questa preveggenza codifica l'intenzione e funge da collo di bottiglia strutturale. Una politica leggera System-1 decodifica quindi questa intenzione in azioni. L'approccio affronta l'instabilità dell'addestramento e il sottoutilizzo delle rappresentazioni semantiche dei VLM. L'articolo è disponibile su arXiv con identificatore 2603.29844.

Fatti principali

DIAL sta per Decoupling Intent and Action via Latent World Modeling (Disaccoppiamento di Intenzione e Azione tramite Modellazione del Mondo Latente).
Il framework è destinato ai modelli Vision-Language-Action (VLA) end-to-end.
Utilizza un System-2 basato su VLM per la modellazione del mondo latente.
System-2 sintetizza una preveggenza visiva latente nello spazio delle feature nativo del VLM.
La preveggenza codifica l'intenzione e funge da collo di bottiglia strutturale.
Una politica leggera System-1 decodifica l'intenzione in azioni di basso livello.
L'approccio mira a ridurre l'instabilità dell'addestramento e a utilizzare meglio le capacità dei VLM.
L'articolo è pubblicato su arXiv con ID 2603.29844.

Il framework DIAL disaccoppia intenzione e azione nei modelli VLA

Fatti principali

Entità

Istituzioni

Fonti