VGenST-Bench: Nuovo Benchmark per il Ragionamento Spazio-Temporale negli MLLM

publication · 2026-05-23

Un nuovo benchmark video chiamato VGenST-Bench è stato sviluppato da ricercatori per valutare il ragionamento spazio-temporale nei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). A differenza dei benchmark tradizionali che dipendono da immagini statiche o video preselezionati, VGenST-Bench sfrutta modelli generativi per creare attivamente un'ampia gamma di scenari di valutazione controllati. Il benchmark è costruito attraverso un processo multi-agente che incorpora il controllo qualità umano per garantire la produzione di video e coppie domanda-risposta di alta qualità. Presenta un'ampia tassonomia video categorizzata in Scala Spaziale, Prospettiva e Dinamiche di Scena, insieme a una suite di compiti gerarchici che separa la percezione visiva di basso livello dal ragionamento avanzato. L'articolo di ricerca è disponibile su arXiv con il riferimento 2605.22570.

Fatti principali

VGenST-Bench è un benchmark video per il ragionamento spazio-temporale negli MLLM.
Utilizza modelli generativi per sintetizzare scenari di valutazione controllati.
Un pipeline multi-agente con controllo qualità umano garantisce la qualità dei video e delle QA.
Il benchmark include una tassonomia video 3x2x2: Scala Spaziale, Prospettiva, Dinamiche di Scena.
Una suite di compiti gerarchici separa la percezione visiva di basso livello dal ragionamento.
L'articolo è pubblicato su arXiv con ID 2605.22570.
I benchmark esistenti si basano su immagini statiche o video curati passivamente.
VGenST-Bench consente la valutazione di capacità di ragionamento fine.

VGenST-Bench: Nuovo Benchmark per il Ragionamento Spazio-Temporale negli MLLM

Fatti principali

Entità

Istituzioni

Fonti