ARTFEED — Contemporary Art Intelligence

Nuovo Benchmark e Modelli di Ricompensa per la Comprensione Video

ai-technology · 2026-05-11

Un team di ricercatori ha introdotto il Video Understanding Reward Bench (VURB), con 2.100 coppie di preferenze e ampie tracce di ragionamento che in media contengono 1.143 token, mirato a valutare i modelli di ricompensa per la comprensione video. Inoltre, hanno sviluppato il Video Understanding Preference Dataset (VUP-35K) attraverso un processo completamente automatizzato. Due modelli di ricompensa, denominati VideoDRM (discriminativo) e VideoGRM (generativo), sono stati addestrati e dimostrano prestazioni all'avanguardia su VURB e su altri compiti legati ai video.

Fatti principali

  • Il benchmark VURB presenta 2.100 coppie di preferenze
  • Le tracce di ragionamento a catena di pensiero contengono in media 1.143 token
  • Il dataset VUP-35K è stato costruito tramite un processo automatizzato
  • VideoDRM è un modello di ricompensa discriminativo
  • VideoGRM è un modello di ricompensa generativo
  • Entrambi i modelli raggiungono prestazioni all'avanguardia
  • Il benchmark copre compiti video generali, lunghi e orientati al ragionamento
  • Viene utilizzata la valutazione a maggioranza

Entità

Fonti