CrossVLA migliora il post-addestramento VLA con DPO cross-paradigma

ai-technology · 2026-05-23

I ricercatori hanno introdotto CrossVLA, uno studio sul post-addestramento cross-paradigma per modelli Vision-Language-Action (VLA). Hanno sviluppato uno stimatore surrogato di log-probabilità per il flow-matching che consente l'ottimizzazione diretta delle preferenze (DPO) su backbone ad azione continua senza integrazione ODE del flusso di probabilità. Confrontando LoRA e DoRA per VLA DPO con parametri efficienti, DoRA ha migliorato OpenVLA SFT di una media di +10,4 punti percentuali su LIBERO 4-suite (600 prove, 3 seed), con guadagni per suite di +20,0 Object, +11,0 Long-horizon, +8,0 Goal e +2,7 Spatial, e varianza zero dei seed su Object (38/50 su ciascuno). Il lavoro colma il divario in cui DPO era stato studiato quasi esclusivamente su VLA autoregressivi come OpenVLA, estendendolo a modelli di flow-matching ad azione continua come pi-0.5.

Fatti principali

CrossVLA è uno studio empirico sul post-addestramento VLA cross-paradigma.
Uno stimatore surrogato di log-probabilità per flow-matching consente DPO su backbone ad azione continua.
DoRA supera LoRA per VLA DPO, con un miglioramento medio di +10,4 pp rispetto a OpenVLA SFT.
Risultati da 600 prove su LIBERO 4-suite con 3 seed.
Guadagni per suite: +20,0 Object, +11,0 Long-horizon, +8,0 Goal, +2,7 Spatial.
Varianza zero dei seed sulla suite Object (38/50 su ciascuno).
DPO precedentemente studiato solo su VLA autoregressivi come OpenVLA.
Modelli di flow-matching ad azione continua come pi-0.5 ora supportati.

CrossVLA migliora il post-addestramento VLA con DPO cross-paradigma

Fatti principali

Entità

Istituzioni

Fonti