L'infrastruttura dei dati come collo di bottiglia nella robotica visione-linguaggio-azione
Un recente studio suggerisce che i progressi nei modelli Visione-Linguaggio-Azione (VLA) sono influenzati più dall'infrastruttura dei dati che dalla progettazione architetturale. La ricerca esamina approfonditamente gli studi VLA attraverso tre componenti principali: dataset, benchmark e motori di dati. Classifica i dataset reali e sintetici in base alla diversità dell'incarnazione, alla composizione modale e alla formulazione dello spazio d'azione, evidenziando un compromesso tra fedeltà e costo. L'analisi dei benchmark rivela carenze nella generalizzazione compositiva e nelle valutazioni del ragionamento a lungo termine. Lo studio sottolinea l'importanza di progettare in modo collaborativo motori di dati ad alta fedeltà insieme a metodi di valutazione strutturati.
Fatti principali
- Lo studio è organizzato attorno a dataset, benchmark e motori di dati.
- Classifica i corpus reali e sintetici in base alla diversità dell'incarnazione, alla composizione modale e alla formulazione dello spazio d'azione.
- Un persistente compromesso fedeltà-costo limita la raccolta su larga scala.
- L'analisi dei benchmark rivela lacune strutturali nella generalizzazione compositiva e nella valutazione del ragionamento a lungo termine.
- L'articolo sostiene che i futuri progressi VLA dipendono dalla co-progettazione dell'infrastruttura dei dati.
- La fonte è arXiv:2604.23001.
- Lo studio è incentrato sui dati.
- Esamina tre pilastri: dataset, benchmark e motori di dati.
Entità
Istituzioni
- arXiv