QEVA: Metrica Senza Riferimento per la Valutazione del Riassunto Video
I ricercatori propongono QEVA, una metrica senza riferimento per valutare il riassunto da video a testo confrontando direttamente i riassunti con i video sorgente utilizzando il question answering multimodale. QEVA valuta i riassunti in tre dimensioni: Copertura, Veridicità e Cronologia. Il team introduce anche MLVU(VS)-Eval, un benchmark di 800 riassunti generati da 200 video utilizzando modelli video-linguaggio all'avanguardia. Gli esperimenti mostrano che QEVA raggiunge una correlazione più alta con i giudizi umani rispetto alle metriche esistenti.
Fatti principali
- QEVA è una metrica di valutazione senza riferimento per il riassunto video.
- Utilizza il question answering multimodale per confrontare i riassunti con i video sorgente.
- Tre dimensioni di valutazione: Copertura, Veridicità e Cronologia.
- Il benchmark MLVU(VS)-Eval include 800 riassunti da 200 video.
- Riassunti generati da modelli video-linguaggio multimodali all'avanguardia.
- QEVA mostra una correlazione più alta con i giudizi umani rispetto alle metriche esistenti.
- Articolo pubblicato su arXiv (2604.24052).
- Affronta le limitazioni delle metriche basate su sovrapposizione di n-grammi e LLM.
Entità
Istituzioni
- arXiv