QEVA: Metrica Senza Riferimento per la Valutazione del Riassunto Video

other · 2026-04-29

I ricercatori propongono QEVA, una metrica senza riferimento per valutare il riassunto da video a testo confrontando direttamente i riassunti con i video sorgente utilizzando il question answering multimodale. QEVA valuta i riassunti in tre dimensioni: Copertura, Veridicità e Cronologia. Il team introduce anche MLVU(VS)-Eval, un benchmark di 800 riassunti generati da 200 video utilizzando modelli video-linguaggio all'avanguardia. Gli esperimenti mostrano che QEVA raggiunge una correlazione più alta con i giudizi umani rispetto alle metriche esistenti.

Fatti principali

QEVA è una metrica di valutazione senza riferimento per il riassunto video.
Utilizza il question answering multimodale per confrontare i riassunti con i video sorgente.
Tre dimensioni di valutazione: Copertura, Veridicità e Cronologia.
Il benchmark MLVU(VS)-Eval include 800 riassunti da 200 video.
Riassunti generati da modelli video-linguaggio multimodali all'avanguardia.
QEVA mostra una correlazione più alta con i giudizi umani rispetto alle metriche esistenti.
Articolo pubblicato su arXiv (2604.24052).
Affronta le limitazioni delle metriche basate su sovrapposizione di n-grammi e LLM.

QEVA: Metrica Senza Riferimento per la Valutazione del Riassunto Video

Fatti principali

Entità

Istituzioni

Fonti