EmbodiedMidtrain: Colmare il divario VLM-VLA tramite il mid-training

ai-technology · 2026-04-24

Un nuovo approccio chiamato EmbodiedMidtrain è stato introdotto dai ricercatori per modificare i modelli Vision-Language (VLM) in modelli Vision-Language-Action (VLA) durante il mid-training. Hanno scoperto una discrepanza nella distribuzione dei dati, notando che i dati VLA si raggruppano in aree distinte rispetto alle distribuzioni VLM più ampie, con diversi livelli di allineamento tra le diverse fonti VLM. Il loro motore di dati per il mid-training utilizza un semplice stimatore di prossimità apprendibile per selezionare candidati allineati a VLA da un ampio pool VLM, successivamente addestrando il VLM prima del fine-tuning per applicazioni VLA. I risultati dei test su tre benchmark di manipolazione robotica indicano miglioramenti costanti delle prestazioni.

Fatti principali

EmbodiedMidtrain colma il divario tra VLM e VLA
I dati VLA occupano regioni compatte separate dalla distribuzione VLM
L'allineamento varia tra e all'interno delle fonti di dati VLM
Utilizza uno stimatore di prossimità apprendibile leggero per la selezione dei dati
Il mid-training avviene prima del fine-tuning VLA a valle
Testato su tre benchmark di manipolazione robotica
Miglioramenti costanti delle prestazioni osservati
Proposto in arXiv:2604.20012

Entità

—

Fonti

arXiv cs.AI — 2026-04-23