PushupBench rivela le difficoltà dei VLM nel conteggio delle ripetizioni

ai-technology · 2026-04-29

I ricercatori hanno presentato PushupBench, un benchmark composto da 446 video clip di lunga durata, ciascuno in media di 36,7 secondi, volto a valutare le prestazioni dei modelli visione-linguaggio (VLM) nel conteggio di azioni ripetitive come le flessioni. Il miglior modello frontier raggiunge solo il 42,1% di accuratezza esatta, mentre i modelli open-source con 4 miliardi di parametri arrivano a circa il 6%, paragonabile a baseline supervisionate semplici. I risultati indicano che affidarsi esclusivamente all'accuratezza può essere ingannevole, poiché i modelli più deboli tendono a prevedere il conteggio modale invece di impegnarsi in ragionamenti temporali. Il fine-tuning con soli 1.000 campioni migliora i compiti generali di comprensione video, aumentando MVBench di 2,15, PerceptionTest di 1,88 e TVBench di 4,54, evidenziando il conteggio come proxy per il ragionamento temporale. Il benchmark è disponibile online e integrato in lmms-eval.

Fatti principali

PushupBench contiene 446 clip di lunga durata con una media di 36,7 secondi.
Il miglior modello frontier raggiunge il 42,1% di accuratezza esatta.
I modelli open-source con 4B parametri ottengono circa il 6% di accuratezza esatta.
I modelli più deboli sfruttano il conteggio modale anziché il ragionamento temporale.
Il fine-tuning sul conteggio con 1.000 campioni migliora MVBench (+2,15), PerceptionTest (+1,88) e TVBench (+4,54).
Il conteggio è proposto come proxy per una più ampia comprensione video temporale.
PushupBench è integrato in lmms-eval e ospitato online.
Lo studio proviene dalla ricerca in informatica e visione artificiale.

PushupBench rivela le difficoltà dei VLM nel conteggio delle ripetizioni

Fatti principali

Entità

Istituzioni

Fonti