Il framework open-source vla-eval standardizza la valutazione dei modelli Vision-Language-Action
Il nuovo framework di valutazione open-source, vla-eval, affronta le difficoltà associate alla valutazione dei modelli Vision-Language-Action (VLA) su vari benchmark di simulazione. Separando l'inferenza del modello dall'esecuzione del benchmark, utilizza un protocollo WebSocket+msgpack all'interno di un ambiente basato su Docker. I modelli si connettono tramite una funzione predict() unificata, mentre i benchmark utilizzano un'interfaccia a quattro metodi, facilitando la valutazione incrociata automatica. Supportando 14 benchmark di simulazione e sei server di modelli, vla-eval consente la valutazione parallela tramite sharding degli episodi e inferenza batch. Questo framework mira a ridurre al minimo le sfide legate all'incorporazione di nuovi benchmark e offre un'interfaccia standardizzata per test efficaci. I dettagli dello sviluppo sono disponibili nella preprint arXiv 2603.13966v2, che sottolinea le complessità della valutazione dei sistemi AI multimodali.
Fatti principali
- vla-eval è un sistema di valutazione open-source per modelli Vision-Language-Action
- Affronta sfide come dipendenze incompatibili e protocolli non specificati nella valutazione dei benchmark
- Il framework utilizza un protocollo WebSocket+msgpack con isolamento ambientale basato su Docker
- I modelli si integrano implementando un singolo metodo predict()
- I benchmark si integrano tramite un'interfaccia a quattro metodi
- Supporta 14 benchmark di simulazione e sei server di modelli
- La valutazione parallela è abilitata tramite sharding degli episodi e inferenza batch
- Il lavoro è documentato nella preprint arXiv 2603.13966v2
Entità
Istituzioni
- arXiv