VL-LCM: Una Nuova Metrica per Valutare la Coerenza Logica Visione-Linguaggio nei MLLM Senza Annotazioni Ground-Truth
I ricercatori propongono la Vision-Language Logical Consistency Metric (VL-LCM) per valutare i modelli linguistici multimodali di grandi dimensioni (MLLM) sulla coerenza logica senza richiedere annotazioni ground-truth. La metrica si basa su principi logici di base, valutando sia le relazioni di causa-effetto sufficienti che necessarie nei compiti visione-linguaggio. VL-LCM viene applicata ai test tradizionali MC-VQA e ai recenti test NaturalBench. Esperimenti sistematici sui benchmark MMMU e NaturalBench hanno valutato 11 MLLM open-source provenienti da 4 famiglie all'avanguardia. I risultati rivelano che, sebbene i recenti MLLM mostrino progressi significativi in accuratezza, la loro coerenza logica è in ritardo. Lo studio esamina anche le correlazioni tra VL-LCM e le metriche ground-truth, l'affidabilità di LCM e aspetti correlati.
Fatti principali
- VL-LCM valuta la coerenza logica visione-linguaggio senza annotazioni ground-truth.
- La metrica si basa su relazioni di causa-effetto sufficienti e necessarie.
- Applicata ai test MC-VQA e NaturalBench.
- Testata su 11 MLLM open-source di 4 famiglie all'avanguardia.
- Valutata sui benchmark MMMU e NaturalBench.
- I recenti MLLM mostrano progressi in accuratezza ma la coerenza logica è in ritardo.
- Lo studio include correlazioni con metriche ground-truth e analisi di affidabilità.
- Pubblicato su arXiv con ID 2605.06201.
Entità
Istituzioni
- arXiv