PushupBench rivela le difficoltà dei VLM nel conteggio delle ripetizioni
I ricercatori hanno presentato PushupBench, un benchmark composto da 446 video clip di lunga durata, ciascuno in media di 36,7 secondi, volto a valutare le prestazioni dei modelli visione-linguaggio (VLM) nel conteggio di azioni ripetitive come le flessioni. Il miglior modello frontier raggiunge solo il 42,1% di accuratezza esatta, mentre i modelli open-source con 4 miliardi di parametri arrivano a circa il 6%, paragonabile a baseline supervisionate semplici. I risultati indicano che affidarsi esclusivamente all'accuratezza può essere ingannevole, poiché i modelli più deboli tendono a prevedere il conteggio modale invece di impegnarsi in ragionamenti temporali. Il fine-tuning con soli 1.000 campioni migliora i compiti generali di comprensione video, aumentando MVBench di 2,15, PerceptionTest di 1,88 e TVBench di 4,54, evidenziando il conteggio come proxy per il ragionamento temporale. Il benchmark è disponibile online e integrato in lmms-eval.
Fatti principali
- PushupBench contiene 446 clip di lunga durata con una media di 36,7 secondi.
- Il miglior modello frontier raggiunge il 42,1% di accuratezza esatta.
- I modelli open-source con 4B parametri ottengono circa il 6% di accuratezza esatta.
- I modelli più deboli sfruttano il conteggio modale anziché il ragionamento temporale.
- Il fine-tuning sul conteggio con 1.000 campioni migliora MVBench (+2,15), PerceptionTest (+1,88) e TVBench (+4,54).
- Il conteggio è proposto come proxy per una più ampia comprensione video temporale.
- PushupBench è integrato in lmms-eval e ospitato online.
- Lo studio proviene dalla ricerca in informatica e visione artificiale.
Entità
Istituzioni
- arXiv
- lmms-eval
- PushupBench