ARTFEED — Contemporary Art Intelligence

DeMaVLA: Un Modello Fondamentale VLA per la Manipolazione Deformabile Generalizzabile

ai-technology · 2026-06-01

Un nuovo modello fondamentale chiamato DeMaVLA è stato sviluppato da ricercatori, concentrandosi su Vision-Language-Action (VLA) per la manipolazione deformabile versatile, in particolare nella piegatura di oggetti deformabili. Questo modello utilizza un backbone VLM insieme a un esperto di azione e flow matching per facilitare la generazione continua di azioni. L'efficienza è ottenuta potando ogni altro strato del trasformatore all'interno dell'esperto di azione. DeMaVLA mira a superare le carenze degli attuali sistemi VLA che creano politiche distinte per vari tipi di oggetti, il che spesso porta a interferenze tra i compiti e a una ridotta efficacia. È progettato per robot domestici per gestire capi di abbigliamento in diverse condizioni iniziali, materiali, forme e ambienti. I risultati sono pubblicati nell'articolo arXiv 2605.31286.

Fatti principali

  • DeMaVLA è un modello fondamentale VLA per la manipolazione deformabile generalizzabile.
  • Si concentra sulla piegatura di oggetti deformabili, una sfida rappresentativa per i robot domestici.
  • Il modello utilizza un backbone VLM con un esperto di azione.
  • La generazione continua di azioni è formulata utilizzando flow matching.
  • L'efficienza dell'esperto di azione è migliorata potando ogni altro strato del trasformatore.
  • I sistemi VLA esistenti addestrano politiche separate per diverse categorie di oggetti.
  • L'addestramento multi-task mescolato ingenuamente spesso soffre di interferenze tra i compiti.
  • La ricerca è pubblicata su arXiv con ID 2605.31286.

Entità

Istituzioni

  • arXiv

Fonti