FineBench: un benchmark per testare i VLM sulle attività umane a grana fine

ai-technology · 2026-05-20

FineBench, un nuovo benchmark incentrato sul video question answering umano-centrico, è stato sviluppato da ricercatori per valutare le capacità di comprensione a grana fine dei modelli visione-linguaggio (VLM). Questo benchmark presenta 199.420 coppie di domande e risposte a scelta multipla meticolosamente annotate su 64 video di lunga durata, ciascuno di 15 minuti. Enfatizza dettagli intricati dei movimenti delle persone, delle interazioni e della manipolazione di oggetti, incluse azioni complesse. Questa iniziativa colma una lacuna significativa, poiché gli attuali benchmark umano-centrici non riescono a integrare video di lunga durata, un'ampia copertura di QA e un grounding spaziale/temporale a livello di fotogramma su larga scala. La ricerca indica che i VLM incontrano frequentemente difficoltà con la comprensione sfumata necessaria per scenari del mondo reale che coinvolgono azioni e interazioni umane.

Fatti principali

FineBench è un benchmark VQA umano-centrico per la comprensione a grana fine.
Include 199.420 coppie di domande e risposte a scelta multipla.
Il benchmark utilizza 64 video di lunga durata, ciascuno di 15 minuti.
Le annotazioni coprono movimento delle persone, interazione e manipolazione di oggetti.
Colma le lacune dei benchmark esistenti che mancano di video lunghi e QA densi.
I VLM attualmente faticano nella comprensione delle attività umane a grana fine.
Il benchmark include azioni composizionali.
Lo studio è stato pubblicato su arXiv con ID 2605.19846.

FineBench: un benchmark per testare i VLM sulle attività umane a grana fine

Fatti principali

Entità

Istituzioni

Fonti