ARTFEED — Contemporary Art Intelligence

Messa in discussione della sicurezza e robustezza dei VLA in ambienti open-world

publication · 2026-04-25

Un nuovo articolo su arXiv (2604.21192) sostiene che gli attuali protocolli di valutazione per i modelli visione-linguaggio-azione (VLA) in ambienti open-world, come il benchmark BEHAVIOR1K (B1K), trascurano la sicurezza e esagerano le prestazioni. Gli autori analizzano modelli all'avanguardia sulla B1K Challenge, valutando le policy per la robustezza tramite riproducibilità e coerenza. Affermano che le metriche basate esclusivamente sugli stati finali degli oggetti ignorano gli eventi che portano a tali stati, minando le sfide fondamentali per l'implementazione nel mondo reale.

Fatti principali

  • L'articolo arXiv:2604.21192 critica i protocolli di valutazione dei VLA.
  • I VLA sono utilizzati in robotica per compiti a lungo termine come le faccende domestiche.
  • Il benchmark BEHAVIOR1K (B1K) è usato per valutare compiti domestici complessi.
  • Le metriche attuali considerano solo gli stati finali degli oggetti, non gli eventi intermedi.
  • Gli autori sostengono che ciò esagera le prestazioni riportate e ignora la sicurezza.
  • L'analisi si concentra su modelli all'avanguardia sulla B1K Challenge.
  • Le policy sono valutate per la robustezza tramite riproducibilità e coerenza.
  • L'articolo afferma che i protocolli attuali minano le sfide dell'implementazione nel mondo reale.

Entità

Istituzioni

  • arXiv

Fonti