FineBench: un benchmark per testare i VLM sulle attività umane a grana fine
FineBench, un nuovo benchmark incentrato sul video question answering umano-centrico, è stato sviluppato da ricercatori per valutare le capacità di comprensione a grana fine dei modelli visione-linguaggio (VLM). Questo benchmark presenta 199.420 coppie di domande e risposte a scelta multipla meticolosamente annotate su 64 video di lunga durata, ciascuno di 15 minuti. Enfatizza dettagli intricati dei movimenti delle persone, delle interazioni e della manipolazione di oggetti, incluse azioni complesse. Questa iniziativa colma una lacuna significativa, poiché gli attuali benchmark umano-centrici non riescono a integrare video di lunga durata, un'ampia copertura di QA e un grounding spaziale/temporale a livello di fotogramma su larga scala. La ricerca indica che i VLM incontrano frequentemente difficoltà con la comprensione sfumata necessaria per scenari del mondo reale che coinvolgono azioni e interazioni umane.
Fatti principali
- FineBench è un benchmark VQA umano-centrico per la comprensione a grana fine.
- Include 199.420 coppie di domande e risposte a scelta multipla.
- Il benchmark utilizza 64 video di lunga durata, ciascuno di 15 minuti.
- Le annotazioni coprono movimento delle persone, interazione e manipolazione di oggetti.
- Colma le lacune dei benchmark esistenti che mancano di video lunghi e QA densi.
- I VLM attualmente faticano nella comprensione delle attività umane a grana fine.
- Il benchmark include azioni composizionali.
- Lo studio è stato pubblicato su arXiv con ID 2605.19846.
Entità
Istituzioni
- arXiv