Nuovo Benchmark e Modelli di Ricompensa per la Comprensione Video
Un team di ricercatori ha introdotto il Video Understanding Reward Bench (VURB), con 2.100 coppie di preferenze e ampie tracce di ragionamento che in media contengono 1.143 token, mirato a valutare i modelli di ricompensa per la comprensione video. Inoltre, hanno sviluppato il Video Understanding Preference Dataset (VUP-35K) attraverso un processo completamente automatizzato. Due modelli di ricompensa, denominati VideoDRM (discriminativo) e VideoGRM (generativo), sono stati addestrati e dimostrano prestazioni all'avanguardia su VURB e su altri compiti legati ai video.
Fatti principali
- Il benchmark VURB presenta 2.100 coppie di preferenze
- Le tracce di ragionamento a catena di pensiero contengono in media 1.143 token
- Il dataset VUP-35K è stato costruito tramite un processo automatizzato
- VideoDRM è un modello di ricompensa discriminativo
- VideoGRM è un modello di ricompensa generativo
- Entrambi i modelli raggiungono prestazioni all'avanguardia
- Il benchmark copre compiti video generali, lunghi e orientati al ragionamento
- Viene utilizzata la valutazione a maggioranza
Entità
—