VideoGameBench: testare i VLM sui videogiochi degli anni '90
I ricercatori hanno introdotto VideoGameBench, un benchmark composto da dieci popolari videogiochi degli anni '90 progettato per valutare i modelli visione-linguaggio (VLM) in compiti come percezione, navigazione spaziale e gestione della memoria. A differenza dei benchmark esistenti che si basano su problemi di programmazione o matematica, VideoGameBench richiede ai modelli di completare interi giochi utilizzando solo input visivi grezzi e descrizioni di alto livello degli obiettivi e dei controlli. Tre dei giochi sono tenuti segreti per incoraggiare la generalizzazione. Il lavoro è dettagliato nell'articolo arXiv 2505.18134.
Fatti principali
- VideoGameBench include 10 popolari videogiochi degli anni '90.
- I VLM interagiscono con i giochi in tempo reale utilizzando solo input visivi grezzi.
- Tre giochi sono tenuti segreti per promuovere la generalizzazione.
- Il benchmark testa percezione, navigazione spaziale e gestione della memoria.
- L'articolo è disponibile su arXiv con ID 2505.18134.
Entità
—