ARTFEED — Contemporary Art Intelligence

Il framework open-source vla-eval standardizza la valutazione dei modelli Vision-Language-Action

ai-technology · 2026-04-20

Il nuovo framework di valutazione open-source, vla-eval, affronta le difficoltà associate alla valutazione dei modelli Vision-Language-Action (VLA) su vari benchmark di simulazione. Separando l'inferenza del modello dall'esecuzione del benchmark, utilizza un protocollo WebSocket+msgpack all'interno di un ambiente basato su Docker. I modelli si connettono tramite una funzione predict() unificata, mentre i benchmark utilizzano un'interfaccia a quattro metodi, facilitando la valutazione incrociata automatica. Supportando 14 benchmark di simulazione e sei server di modelli, vla-eval consente la valutazione parallela tramite sharding degli episodi e inferenza batch. Questo framework mira a ridurre al minimo le sfide legate all'incorporazione di nuovi benchmark e offre un'interfaccia standardizzata per test efficaci. I dettagli dello sviluppo sono disponibili nella preprint arXiv 2603.13966v2, che sottolinea le complessità della valutazione dei sistemi AI multimodali.

Fatti principali

  • vla-eval è un sistema di valutazione open-source per modelli Vision-Language-Action
  • Affronta sfide come dipendenze incompatibili e protocolli non specificati nella valutazione dei benchmark
  • Il framework utilizza un protocollo WebSocket+msgpack con isolamento ambientale basato su Docker
  • I modelli si integrano implementando un singolo metodo predict()
  • I benchmark si integrano tramite un'interfaccia a quattro metodi
  • Supporta 14 benchmark di simulazione e sei server di modelli
  • La valutazione parallela è abilitata tramite sharding degli episodi e inferenza batch
  • Il lavoro è documentato nella preprint arXiv 2603.13966v2

Entità

Istituzioni

  • arXiv

Fonti