Framework MM-Eval per la valutazione del riassunto multimodale
Un nuovo framework di valutazione chiamato MM-Eval è stato sviluppato dai ricercatori per il Riassunto Multimodale con Output Multimodale (MSMO). Le tecniche di valutazione esistenti tipicamente analizzano la qualità del testo, l'allineamento testo-immagine e la diversità visiva in modo isolato attraverso metriche unimodali, che non riflettono adeguatamente le loro interconnessioni. MM-Eval comprende tre elementi chiave: la qualità del testo è valutata utilizzando OpenFActScore per l'accuratezza fattuale e G-Eval per coerenza, fluidità e pertinenza; la rilevanza testo-immagine è determinata attraverso una metodologia MLLM-as-a-judge; e la diversità degli insiemi di immagini è misurata con Truncated CLIP Entropy. Questo framework mira a unificare il processo di valutazione in MSMO.
Fatti principali
- 1. MM-Eval è un framework di valutazione unificato per MSMO.
- 2. L'attuale valutazione MSMO è frammentata utilizzando metriche unimodali.
- 3. MM-Eval integra qualità del testo, allineamento cross-modale e diversità visiva.
- 4. La qualità del testo utilizza OpenFActScore e G-Eval.
- 5. La rilevanza testo-immagine utilizza MLLM-as-a-judge.
- 6. La diversità degli insiemi di immagini utilizza Truncated CLIP Entropy.
- 7. Il framework affronta la frammentazione nella valutazione multimodale.
Entità
Istituzioni
- arXiv