ARTFEED — Contemporary Art Intelligence

QEVA: Metrica Senza Riferimento per la Valutazione del Riassunto Video

other · 2026-04-29

I ricercatori propongono QEVA, una metrica senza riferimento per valutare il riassunto da video a testo confrontando direttamente i riassunti con i video sorgente utilizzando il question answering multimodale. QEVA valuta i riassunti in tre dimensioni: Copertura, Veridicità e Cronologia. Il team introduce anche MLVU(VS)-Eval, un benchmark di 800 riassunti generati da 200 video utilizzando modelli video-linguaggio all'avanguardia. Gli esperimenti mostrano che QEVA raggiunge una correlazione più alta con i giudizi umani rispetto alle metriche esistenti.

Fatti principali

  • QEVA è una metrica di valutazione senza riferimento per il riassunto video.
  • Utilizza il question answering multimodale per confrontare i riassunti con i video sorgente.
  • Tre dimensioni di valutazione: Copertura, Veridicità e Cronologia.
  • Il benchmark MLVU(VS)-Eval include 800 riassunti da 200 video.
  • Riassunti generati da modelli video-linguaggio multimodali all'avanguardia.
  • QEVA mostra una correlazione più alta con i giudizi umani rispetto alle metriche esistenti.
  • Articolo pubblicato su arXiv (2604.24052).
  • Affronta le limitazioni delle metriche basate su sovrapposizione di n-grammi e LLM.

Entità

Istituzioni

  • arXiv

Fonti