ARTFEED — Contemporary Art Intelligence

EmbodiedMidtrain: Colmare il divario VLM-VLA tramite il mid-training

ai-technology · 2026-04-24

Un nuovo approccio chiamato EmbodiedMidtrain è stato introdotto dai ricercatori per modificare i modelli Vision-Language (VLM) in modelli Vision-Language-Action (VLA) durante il mid-training. Hanno scoperto una discrepanza nella distribuzione dei dati, notando che i dati VLA si raggruppano in aree distinte rispetto alle distribuzioni VLM più ampie, con diversi livelli di allineamento tra le diverse fonti VLM. Il loro motore di dati per il mid-training utilizza un semplice stimatore di prossimità apprendibile per selezionare candidati allineati a VLA da un ampio pool VLM, successivamente addestrando il VLM prima del fine-tuning per applicazioni VLA. I risultati dei test su tre benchmark di manipolazione robotica indicano miglioramenti costanti delle prestazioni.

Fatti principali

  • EmbodiedMidtrain colma il divario tra VLM e VLA
  • I dati VLA occupano regioni compatte separate dalla distribuzione VLM
  • L'allineamento varia tra e all'interno delle fonti di dati VLM
  • Utilizza uno stimatore di prossimità apprendibile leggero per la selezione dei dati
  • Il mid-training avviene prima del fine-tuning VLA a valle
  • Testato su tre benchmark di manipolazione robotica
  • Miglioramenti costanti delle prestazioni osservati
  • Proposto in arXiv:2604.20012

Entità

Fonti