FineVLA: Allineamento Fine delle Istruzioni per Politiche Robotizzate Controllabili

ai-technology · 2026-05-27

I modelli che integrano visione, linguaggio e azione (VLA) sono sempre più attesi per seguire le direttive umane nell'esecuzione di compiti. Tuttavia, gli attuali dataset robotici non forniscono informazioni dettagliate sulle azioni. FineVLA presenta un framework completo per la supervisione VLA fine e allineata all'azione. Include uno strumento per la costruzione di dati che consolida 972.247 traiettorie da 85.000 compiti in 10 dataset robotici open-source. Inoltre, presenta un dataset verificato da umani composto da 47.159 traiettorie fini, un benchmark con 500 video, 10.816 fatti atomici e 1.030 domande di visual question-answering (VQA), insieme a un annotatore VLM specializzato per l'annotazione scalabile in robotica.

Fatti principali

FineVLA è un framework aperto per la supervisione VLA fine
Lo strumento di costruzione dati unifica 972.247 traiettorie in 85.000 compiti da 10 dataset robotici open-source
FineVLA-Data è un dataset verificato da umani di 47.159 traiettorie fini
Il benchmark di validazione include 500 video, 10.816 fatti atomici e 1.030 domande VQA
Include un annotatore VLM specializzato in robotica per annotazione fine scalabile
Affronta la mancanza di dettagli critici per l'esecuzione nei dataset robotici esistenti
Consente l'apprendimento di politiche controllabili e la comprensione video robotica
Pubblicato su arXiv come 2605.27284

FineVLA: Allineamento Fine delle Istruzioni per Politiche Robotizzate Controllabili

Fatti principali

Entità

Istituzioni

Fonti