DeMaVLA: Un Modello Fondamentale VLA per la Manipolazione Deformabile Generalizzabile
Un nuovo modello fondamentale chiamato DeMaVLA è stato sviluppato da ricercatori, concentrandosi su Vision-Language-Action (VLA) per la manipolazione deformabile versatile, in particolare nella piegatura di oggetti deformabili. Questo modello utilizza un backbone VLM insieme a un esperto di azione e flow matching per facilitare la generazione continua di azioni. L'efficienza è ottenuta potando ogni altro strato del trasformatore all'interno dell'esperto di azione. DeMaVLA mira a superare le carenze degli attuali sistemi VLA che creano politiche distinte per vari tipi di oggetti, il che spesso porta a interferenze tra i compiti e a una ridotta efficacia. È progettato per robot domestici per gestire capi di abbigliamento in diverse condizioni iniziali, materiali, forme e ambienti. I risultati sono pubblicati nell'articolo arXiv 2605.31286.
Fatti principali
- DeMaVLA è un modello fondamentale VLA per la manipolazione deformabile generalizzabile.
- Si concentra sulla piegatura di oggetti deformabili, una sfida rappresentativa per i robot domestici.
- Il modello utilizza un backbone VLM con un esperto di azione.
- La generazione continua di azioni è formulata utilizzando flow matching.
- L'efficienza dell'esperto di azione è migliorata potando ogni altro strato del trasformatore.
- I sistemi VLA esistenti addestrano politiche separate per diverse categorie di oggetti.
- L'addestramento multi-task mescolato ingenuamente spesso soffre di interferenze tra i compiti.
- La ricerca è pubblicata su arXiv con ID 2605.31286.
Entità
Istituzioni
- arXiv