ARTFEED — Contemporary Art Intelligence

VideoGameBench: testare i VLM sui videogiochi degli anni '90

ai-technology · 2026-05-18

I ricercatori hanno introdotto VideoGameBench, un benchmark composto da dieci popolari videogiochi degli anni '90 progettato per valutare i modelli visione-linguaggio (VLM) in compiti come percezione, navigazione spaziale e gestione della memoria. A differenza dei benchmark esistenti che si basano su problemi di programmazione o matematica, VideoGameBench richiede ai modelli di completare interi giochi utilizzando solo input visivi grezzi e descrizioni di alto livello degli obiettivi e dei controlli. Tre dei giochi sono tenuti segreti per incoraggiare la generalizzazione. Il lavoro è dettagliato nell'articolo arXiv 2505.18134.

Fatti principali

  • VideoGameBench include 10 popolari videogiochi degli anni '90.
  • I VLM interagiscono con i giochi in tempo reale utilizzando solo input visivi grezzi.
  • Tre giochi sono tenuti segreti per promuovere la generalizzazione.
  • Il benchmark testa percezione, navigazione spaziale e gestione della memoria.
  • L'articolo è disponibile su arXiv con ID 2505.18134.

Entità

Fonti