VLA-AD: Distillare Modelli Visione-Linguaggio-Azione di Grandi Dimensioni in Politiche Leggere
Un nuovo framework chiamato VLA-AD è stato introdotto dai ricercatori, utilizzando un Modello Visione-Linguaggio come guida semantica offline per condensare politiche Visione-Linguaggio-Azione (VLA) con miliardi di parametri in modelli studenti più compatti. Questo approccio migliora i target di azione forniti dal docente con segnali semantici di alto livello, come ancore di fase del compito e descrizioni delle direzioni operative su più fotogrammi, che vengono applicati solo durante la fase di addestramento. Una volta iniziato il test, la politica studente opera autonomamente, senza dipendere dal docente o dal VLM. Valutato su tre suite di benchmark LIBERO con OpenVLA-7B come docente, VLA-AD produce un modello studente di 158M parametri, con una riduzione di 44× delle dimensioni del modello, affrontando una sfida significativa nel controllo in tempo reale a ciclo chiuso per la manipolazione robotica.
Fatti principali
- VLA-AD utilizza un Modello Visione-Linguaggio come supervisore semantico offline.
- Distilla grandi docenti VLA in politiche studente leggere.
- Aumenta i target di azione a 7-DoF forniti dal docente con guida semantica.
- La guida semantica include ancore di fase del compito e descrizioni delle direzioni operative su più fotogrammi.
- I segnali ausiliari vengono utilizzati solo durante l'addestramento.
- Al momento del test, la politica studente opera in modo indipendente.
- Valutato su tre suite di benchmark LIBERO.
- Utilizza OpenVLA-7B come docente, produce uno studente di 158M parametri, riduzione di 44×.
Entità
—