I dataset di addestramento VLA mostrano una limitata diversità linguistica

ai-technology · 2026-04-30

Un audit sistematico dei dataset Vision-Language-Action (VLA) ampiamente utilizzati rivela che molti si basano su comandi ripetitivi e simili a template, con una variazione strutturale limitata. Lo studio, pubblicato su arXiv (2601.03136), quantifica il linguaggio delle istruzioni in termini di varietà lessicale, duplicazione, sovrapposizione, similarità semantica e complessità sintattica. I risultati indicano una distribuzione ristretta delle forme di istruzione, che potrebbe influire sulla robustezza dei sistemi di IA incarnata. Gli autori presentano questo lavoro come documentazione descrittiva a supporto di una rendicontazione più dettagliata dei dataset.

Fatti principali

Il paper arXiv 2601.03136 analizza i dataset VLA.
L'analisi copre varietà lessicale, duplicazione, sovrapposizione, similarità semantica, complessità sintattica.
Molti dataset utilizzano comandi ripetitivi e simili a template.
Variazione strutturale limitata nelle istruzioni.
I risultati mirano a supportare una migliore rendicontazione dei dataset.

I dataset di addestramento VLA mostrano una limitata diversità linguistica

Fatti principali

Entità

Istituzioni

Fonti