Messa in discussione della sicurezza e robustezza dei VLA in ambienti open-world
Un nuovo articolo su arXiv (2604.21192) sostiene che gli attuali protocolli di valutazione per i modelli visione-linguaggio-azione (VLA) in ambienti open-world, come il benchmark BEHAVIOR1K (B1K), trascurano la sicurezza e esagerano le prestazioni. Gli autori analizzano modelli all'avanguardia sulla B1K Challenge, valutando le policy per la robustezza tramite riproducibilità e coerenza. Affermano che le metriche basate esclusivamente sugli stati finali degli oggetti ignorano gli eventi che portano a tali stati, minando le sfide fondamentali per l'implementazione nel mondo reale.
Fatti principali
- L'articolo arXiv:2604.21192 critica i protocolli di valutazione dei VLA.
- I VLA sono utilizzati in robotica per compiti a lungo termine come le faccende domestiche.
- Il benchmark BEHAVIOR1K (B1K) è usato per valutare compiti domestici complessi.
- Le metriche attuali considerano solo gli stati finali degli oggetti, non gli eventi intermedi.
- Gli autori sostengono che ciò esagera le prestazioni riportate e ignora la sicurezza.
- L'analisi si concentra su modelli all'avanguardia sulla B1K Challenge.
- Le policy sono valutate per la robustezza tramite riproducibilità e coerenza.
- L'articolo afferma che i protocolli attuali minano le sfide dell'implementazione nel mondo reale.
Entità
Istituzioni
- arXiv