Messa in discussione della sicurezza e robustezza dei VLA in ambienti open-world

publication · 2026-04-25

Un nuovo articolo su arXiv (2604.21192) sostiene che gli attuali protocolli di valutazione per i modelli visione-linguaggio-azione (VLA) in ambienti open-world, come il benchmark BEHAVIOR1K (B1K), trascurano la sicurezza e esagerano le prestazioni. Gli autori analizzano modelli all'avanguardia sulla B1K Challenge, valutando le policy per la robustezza tramite riproducibilità e coerenza. Affermano che le metriche basate esclusivamente sugli stati finali degli oggetti ignorano gli eventi che portano a tali stati, minando le sfide fondamentali per l'implementazione nel mondo reale.

Fatti principali

L'articolo arXiv:2604.21192 critica i protocolli di valutazione dei VLA.
I VLA sono utilizzati in robotica per compiti a lungo termine come le faccende domestiche.
Il benchmark BEHAVIOR1K (B1K) è usato per valutare compiti domestici complessi.
Le metriche attuali considerano solo gli stati finali degli oggetti, non gli eventi intermedi.
Gli autori sostengono che ciò esagera le prestazioni riportate e ignora la sicurezza.
L'analisi si concentra su modelli all'avanguardia sulla B1K Challenge.
Le policy sono valutate per la robustezza tramite riproducibilità e coerenza.
L'articolo afferma che i protocolli attuali minano le sfide dell'implementazione nel mondo reale.

Messa in discussione della sicurezza e robustezza dei VLA in ambienti open-world

Fatti principali

Entità

Istituzioni

Fonti