DeMaVLA: Un Modello Fondamentale VLA per la Manipolazione Deformabile Generalizzabile

ai-technology · 2026-06-01

Un nuovo modello fondamentale chiamato DeMaVLA è stato sviluppato da ricercatori, concentrandosi su Vision-Language-Action (VLA) per la manipolazione deformabile versatile, in particolare nella piegatura di oggetti deformabili. Questo modello utilizza un backbone VLM insieme a un esperto di azione e flow matching per facilitare la generazione continua di azioni. L'efficienza è ottenuta potando ogni altro strato del trasformatore all'interno dell'esperto di azione. DeMaVLA mira a superare le carenze degli attuali sistemi VLA che creano politiche distinte per vari tipi di oggetti, il che spesso porta a interferenze tra i compiti e a una ridotta efficacia. È progettato per robot domestici per gestire capi di abbigliamento in diverse condizioni iniziali, materiali, forme e ambienti. I risultati sono pubblicati nell'articolo arXiv 2605.31286.

Fatti principali

DeMaVLA è un modello fondamentale VLA per la manipolazione deformabile generalizzabile.
Si concentra sulla piegatura di oggetti deformabili, una sfida rappresentativa per i robot domestici.
Il modello utilizza un backbone VLM con un esperto di azione.
La generazione continua di azioni è formulata utilizzando flow matching.
L'efficienza dell'esperto di azione è migliorata potando ogni altro strato del trasformatore.
I sistemi VLA esistenti addestrano politiche separate per diverse categorie di oggetti.
L'addestramento multi-task mescolato ingenuamente spesso soffre di interferenze tra i compiti.
La ricerca è pubblicata su arXiv con ID 2605.31286.

DeMaVLA: Un Modello Fondamentale VLA per la Manipolazione Deformabile Generalizzabile

Fatti principali

Entità

Istituzioni

Fonti