Framework MM-Eval per la valutazione del riassunto multimodale

other · 2026-05-13

Un nuovo framework di valutazione chiamato MM-Eval è stato sviluppato dai ricercatori per il Riassunto Multimodale con Output Multimodale (MSMO). Le tecniche di valutazione esistenti tipicamente analizzano la qualità del testo, l'allineamento testo-immagine e la diversità visiva in modo isolato attraverso metriche unimodali, che non riflettono adeguatamente le loro interconnessioni. MM-Eval comprende tre elementi chiave: la qualità del testo è valutata utilizzando OpenFActScore per l'accuratezza fattuale e G-Eval per coerenza, fluidità e pertinenza; la rilevanza testo-immagine è determinata attraverso una metodologia MLLM-as-a-judge; e la diversità degli insiemi di immagini è misurata con Truncated CLIP Entropy. Questo framework mira a unificare il processo di valutazione in MSMO.

Fatti principali

1. MM-Eval è un framework di valutazione unificato per MSMO.
2. L'attuale valutazione MSMO è frammentata utilizzando metriche unimodali.
3. MM-Eval integra qualità del testo, allineamento cross-modale e diversità visiva.
4. La qualità del testo utilizza OpenFActScore e G-Eval.
5. La rilevanza testo-immagine utilizza MLLM-as-a-judge.
6. La diversità degli insiemi di immagini utilizza Truncated CLIP Entropy.
7. Il framework affronta la frammentazione nella valutazione multimodale.

Framework MM-Eval per la valutazione del riassunto multimodale

Fatti principali

Entità

Istituzioni

Fonti