ARTFEED — Contemporary Art Intelligence

PushupBench rivela le difficoltà dei VLM nel conteggio delle ripetizioni

ai-technology · 2026-04-29

I ricercatori hanno presentato PushupBench, un benchmark composto da 446 video clip di lunga durata, ciascuno in media di 36,7 secondi, volto a valutare le prestazioni dei modelli visione-linguaggio (VLM) nel conteggio di azioni ripetitive come le flessioni. Il miglior modello frontier raggiunge solo il 42,1% di accuratezza esatta, mentre i modelli open-source con 4 miliardi di parametri arrivano a circa il 6%, paragonabile a baseline supervisionate semplici. I risultati indicano che affidarsi esclusivamente all'accuratezza può essere ingannevole, poiché i modelli più deboli tendono a prevedere il conteggio modale invece di impegnarsi in ragionamenti temporali. Il fine-tuning con soli 1.000 campioni migliora i compiti generali di comprensione video, aumentando MVBench di 2,15, PerceptionTest di 1,88 e TVBench di 4,54, evidenziando il conteggio come proxy per il ragionamento temporale. Il benchmark è disponibile online e integrato in lmms-eval.

Fatti principali

  • PushupBench contiene 446 clip di lunga durata con una media di 36,7 secondi.
  • Il miglior modello frontier raggiunge il 42,1% di accuratezza esatta.
  • I modelli open-source con 4B parametri ottengono circa il 6% di accuratezza esatta.
  • I modelli più deboli sfruttano il conteggio modale anziché il ragionamento temporale.
  • Il fine-tuning sul conteggio con 1.000 campioni migliora MVBench (+2,15), PerceptionTest (+1,88) e TVBench (+4,54).
  • Il conteggio è proposto come proxy per una più ampia comprensione video temporale.
  • PushupBench è integrato in lmms-eval e ospitato online.
  • Lo studio proviene dalla ricerca in informatica e visione artificiale.

Entità

Istituzioni

  • arXiv
  • lmms-eval
  • PushupBench

Fonti