ARTFEED — Contemporary Art Intelligence

VL-LCM: Una Nuova Metrica per Valutare la Coerenza Logica Visione-Linguaggio nei MLLM Senza Annotazioni Ground-Truth

ai-technology · 2026-05-09

I ricercatori propongono la Vision-Language Logical Consistency Metric (VL-LCM) per valutare i modelli linguistici multimodali di grandi dimensioni (MLLM) sulla coerenza logica senza richiedere annotazioni ground-truth. La metrica si basa su principi logici di base, valutando sia le relazioni di causa-effetto sufficienti che necessarie nei compiti visione-linguaggio. VL-LCM viene applicata ai test tradizionali MC-VQA e ai recenti test NaturalBench. Esperimenti sistematici sui benchmark MMMU e NaturalBench hanno valutato 11 MLLM open-source provenienti da 4 famiglie all'avanguardia. I risultati rivelano che, sebbene i recenti MLLM mostrino progressi significativi in accuratezza, la loro coerenza logica è in ritardo. Lo studio esamina anche le correlazioni tra VL-LCM e le metriche ground-truth, l'affidabilità di LCM e aspetti correlati.

Fatti principali

  • VL-LCM valuta la coerenza logica visione-linguaggio senza annotazioni ground-truth.
  • La metrica si basa su relazioni di causa-effetto sufficienti e necessarie.
  • Applicata ai test MC-VQA e NaturalBench.
  • Testata su 11 MLLM open-source di 4 famiglie all'avanguardia.
  • Valutata sui benchmark MMMU e NaturalBench.
  • I recenti MLLM mostrano progressi in accuratezza ma la coerenza logica è in ritardo.
  • Lo studio include correlazioni con metriche ground-truth e analisi di affidabilità.
  • Pubblicato su arXiv con ID 2605.06201.

Entità

Istituzioni

  • arXiv

Fonti