RoboEval: Un Benchmark Scalabile per la Valutazione della Manipolazione Robotica

other · 2026-05-07

RoboEval funge da framework di valutazione completo e benchmark per la manipolazione robotica, superando i semplici indicatori di successo. Incorpora metriche comportamentali e di risultato ben definite per valutare sia la qualità dell'esecuzione che la natura dei fallimenti. Il framework presenta otto compiti bimanuali con variazioni specifiche, supportati da oltre tremila dimostrazioni esperte e una piattaforma di simulazione flessibile. Metriche standardizzate misurano efficienza, coordinazione, sicurezza/stabilità e progresso in varie fasi. Esperimenti condotti con politiche visuomotorie all'avanguardia confermano l'affidabilità delle metriche, la loro capacità di differenziare le prestazioni e la loro relazione con i tassi di successo.

Fatti principali

1. RoboEval integra il successo binario con metriche comportamentali e di risultato.
2. Include otto compiti bimanuali con variazioni sistematicamente controllate.
3. Fornisce oltre tremila dimostrazioni esperte.
4. Presenta una piattaforma di simulazione modulare per esperimenti riproducibili.
5. Le metriche quantificano efficienza, coordinazione, sicurezza/stabilità e progresso per fasi.
6. Validato attraverso esperimenti con politiche visuomotorie all'avanguardia.
7. Le metriche mostrano stabilità sotto variazione e potere discriminante tra le politiche.
8. Il framework localizza le modalità di fallimento nella manipolazione robotica.

Entità

—

Fonti

arXiv cs.AI — 2026-05-06