FineVLA: Allineamento Fine delle Istruzioni per Politiche Robotizzate Controllabili
I modelli che integrano visione, linguaggio e azione (VLA) sono sempre più attesi per seguire le direttive umane nell'esecuzione di compiti. Tuttavia, gli attuali dataset robotici non forniscono informazioni dettagliate sulle azioni. FineVLA presenta un framework completo per la supervisione VLA fine e allineata all'azione. Include uno strumento per la costruzione di dati che consolida 972.247 traiettorie da 85.000 compiti in 10 dataset robotici open-source. Inoltre, presenta un dataset verificato da umani composto da 47.159 traiettorie fini, un benchmark con 500 video, 10.816 fatti atomici e 1.030 domande di visual question-answering (VQA), insieme a un annotatore VLM specializzato per l'annotazione scalabile in robotica.
Fatti principali
- FineVLA è un framework aperto per la supervisione VLA fine
- Lo strumento di costruzione dati unifica 972.247 traiettorie in 85.000 compiti da 10 dataset robotici open-source
- FineVLA-Data è un dataset verificato da umani di 47.159 traiettorie fini
- Il benchmark di validazione include 500 video, 10.816 fatti atomici e 1.030 domande VQA
- Include un annotatore VLM specializzato in robotica per annotazione fine scalabile
- Affronta la mancanza di dettagli critici per l'esecuzione nei dataset robotici esistenti
- Consente l'apprendimento di politiche controllabili e la comprensione video robotica
- Pubblicato su arXiv come 2605.27284
Entità
Istituzioni
- arXiv