ARTFEED — Contemporary Art Intelligence

FineBench: un benchmark per testare i VLM sulle attività umane a grana fine

ai-technology · 2026-05-20

FineBench, un nuovo benchmark incentrato sul video question answering umano-centrico, è stato sviluppato da ricercatori per valutare le capacità di comprensione a grana fine dei modelli visione-linguaggio (VLM). Questo benchmark presenta 199.420 coppie di domande e risposte a scelta multipla meticolosamente annotate su 64 video di lunga durata, ciascuno di 15 minuti. Enfatizza dettagli intricati dei movimenti delle persone, delle interazioni e della manipolazione di oggetti, incluse azioni complesse. Questa iniziativa colma una lacuna significativa, poiché gli attuali benchmark umano-centrici non riescono a integrare video di lunga durata, un'ampia copertura di QA e un grounding spaziale/temporale a livello di fotogramma su larga scala. La ricerca indica che i VLM incontrano frequentemente difficoltà con la comprensione sfumata necessaria per scenari del mondo reale che coinvolgono azioni e interazioni umane.

Fatti principali

  • FineBench è un benchmark VQA umano-centrico per la comprensione a grana fine.
  • Include 199.420 coppie di domande e risposte a scelta multipla.
  • Il benchmark utilizza 64 video di lunga durata, ciascuno di 15 minuti.
  • Le annotazioni coprono movimento delle persone, interazione e manipolazione di oggetti.
  • Colma le lacune dei benchmark esistenti che mancano di video lunghi e QA densi.
  • I VLM attualmente faticano nella comprensione delle attività umane a grana fine.
  • Il benchmark include azioni composizionali.
  • Lo studio è stato pubblicato su arXiv con ID 2605.19846.

Entità

Istituzioni

  • arXiv

Fonti