VL-LCM: Una Nuova Metrica per Valutare la Coerenza Logica Visione-Linguaggio nei MLLM Senza Annotazioni Ground-Truth

ai-technology · 2026-05-09

I ricercatori propongono la Vision-Language Logical Consistency Metric (VL-LCM) per valutare i modelli linguistici multimodali di grandi dimensioni (MLLM) sulla coerenza logica senza richiedere annotazioni ground-truth. La metrica si basa su principi logici di base, valutando sia le relazioni di causa-effetto sufficienti che necessarie nei compiti visione-linguaggio. VL-LCM viene applicata ai test tradizionali MC-VQA e ai recenti test NaturalBench. Esperimenti sistematici sui benchmark MMMU e NaturalBench hanno valutato 11 MLLM open-source provenienti da 4 famiglie all'avanguardia. I risultati rivelano che, sebbene i recenti MLLM mostrino progressi significativi in accuratezza, la loro coerenza logica è in ritardo. Lo studio esamina anche le correlazioni tra VL-LCM e le metriche ground-truth, l'affidabilità di LCM e aspetti correlati.

Fatti principali

VL-LCM valuta la coerenza logica visione-linguaggio senza annotazioni ground-truth.
La metrica si basa su relazioni di causa-effetto sufficienti e necessarie.
Applicata ai test MC-VQA e NaturalBench.
Testata su 11 MLLM open-source di 4 famiglie all'avanguardia.
Valutata sui benchmark MMMU e NaturalBench.
I recenti MLLM mostrano progressi in accuratezza ma la coerenza logica è in ritardo.
Lo studio include correlazioni con metriche ground-truth e analisi di affidabilità.
Pubblicato su arXiv con ID 2605.06201.

VL-LCM: Una Nuova Metrica per Valutare la Coerenza Logica Visione-Linguaggio nei MLLM Senza Annotazioni Ground-Truth

Fatti principali

Entità

Istituzioni

Fonti