Nuovo Benchmark e Modelli di Ricompensa per la Comprensione Video

ai-technology · 2026-05-11

Un team di ricercatori ha introdotto il Video Understanding Reward Bench (VURB), con 2.100 coppie di preferenze e ampie tracce di ragionamento che in media contengono 1.143 token, mirato a valutare i modelli di ricompensa per la comprensione video. Inoltre, hanno sviluppato il Video Understanding Preference Dataset (VUP-35K) attraverso un processo completamente automatizzato. Due modelli di ricompensa, denominati VideoDRM (discriminativo) e VideoGRM (generativo), sono stati addestrati e dimostrano prestazioni all'avanguardia su VURB e su altri compiti legati ai video.

Fatti principali

Il benchmark VURB presenta 2.100 coppie di preferenze
Le tracce di ragionamento a catena di pensiero contengono in media 1.143 token
Il dataset VUP-35K è stato costruito tramite un processo automatizzato
VideoDRM è un modello di ricompensa discriminativo
VideoGRM è un modello di ricompensa generativo
Entrambi i modelli raggiungono prestazioni all'avanguardia
Il benchmark copre compiti video generali, lunghi e orientati al ragionamento
Viene utilizzata la valutazione a maggioranza

Entità

—

Fonti

arXiv cs.AI — 2026-05-11