VLATIM Benchmark Testa il Ragionamento Logico dei VLM nei Giochi Puzzle
È stato introdotto un nuovo benchmark chiamato Vision-Language Against The Incredible Machine (VLATIM) per testare quanto bene i modelli Vision-Language(-Action) (VLM) possano affrontare sfide logiche nei giochi puzzle punta-e-clicca. Questo benchmark si basa sul classico gioco The Incredible Machine 2 (TIM). VLATIM cerca di collegare il ragionamento logico sofisticato con l'azione continua che richiede movimenti precisi del mouse. Presenta cinque sezioni sequenziali che valutano abilità dalla comprensione visiva di base al completamento completo del puzzle. Risultati recenti mostrano una differenza significativa tra ragionamento e implementazione, con modelli proprietari più grandi che dimostrano migliori capacità di pianificazione.
Fatti principali
- Benchmark VLATIM introdotto per valutare i VLM nei giochi puzzle
- Basato su The Incredible Machine 2 (TIM)
- Mira al divario tra ragionamento logico e spazi di azione continua
- Cinque parti progressive: comprensione visiva, comprensione del dominio, manipolazione multi-step, risoluzione completa del puzzle
- I grandi modelli proprietari mostrano una pianificazione superiore ma il divario di esecuzione rimane
Entità
Istituzioni
- arXiv