VLA-AD: Distillare Modelli Visione-Linguaggio-Azione di Grandi Dimensioni in Politiche Leggere

ai-technology · 2026-05-18

Un nuovo framework chiamato VLA-AD è stato introdotto dai ricercatori, utilizzando un Modello Visione-Linguaggio come guida semantica offline per condensare politiche Visione-Linguaggio-Azione (VLA) con miliardi di parametri in modelli studenti più compatti. Questo approccio migliora i target di azione forniti dal docente con segnali semantici di alto livello, come ancore di fase del compito e descrizioni delle direzioni operative su più fotogrammi, che vengono applicati solo durante la fase di addestramento. Una volta iniziato il test, la politica studente opera autonomamente, senza dipendere dal docente o dal VLM. Valutato su tre suite di benchmark LIBERO con OpenVLA-7B come docente, VLA-AD produce un modello studente di 158M parametri, con una riduzione di 44× delle dimensioni del modello, affrontando una sfida significativa nel controllo in tempo reale a ciclo chiuso per la manipolazione robotica.

Fatti principali

VLA-AD utilizza un Modello Visione-Linguaggio come supervisore semantico offline.
Distilla grandi docenti VLA in politiche studente leggere.
Aumenta i target di azione a 7-DoF forniti dal docente con guida semantica.
La guida semantica include ancore di fase del compito e descrizioni delle direzioni operative su più fotogrammi.
I segnali ausiliari vengono utilizzati solo durante l'addestramento.
Al momento del test, la politica studente opera in modo indipendente.
Valutato su tre suite di benchmark LIBERO.
Utilizza OpenVLA-7B come docente, produce uno studente di 158M parametri, riduzione di 44×.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18