ARTFEED — Contemporary Art Intelligence

COHERENCE: un benchmark per testare la capacità di allineamento fine-grained tra immagini e testo nei MLLM

ai-technology · 2026-05-01

I ricercatori hanno introdotto COHERENCE, un benchmark progettato per valutare la capacità dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) di recuperare corrispondenze fine-grained tra immagini e testo in contesti interleaved. Mentre i benchmark esistenti si concentrano sulla comprensione di singole immagini o di più immagini, scenari reali come la lettura di documenti richiedono che i modelli identifichino le prove testuali e visive pertinenti, stabiliscano allineamenti e ragionino su contesti interleaved. COHERENCE mira a colmare la lacuna nella valutazione sistematica di questa capacità di comprensione fine-grained.

Fatti principali

  • COHERENCE è un benchmark per l'allineamento fine-grained tra immagini e testo in contesti interleaved.
  • I benchmark MLLM esistenti si concentrano principalmente sulla comprensione di singole immagini o di più immagini.
  • Scenari reali come la lettura di documenti richiedono una comprensione multimodale interleaved.
  • I MLLM devono identificare le prove testuali e visive pertinenti e stabilire allineamenti.
  • Il benchmark è stato introdotto nell'articolo arXiv 2604.27389.
  • Affronta la mancanza di benchmark sistematici per contesti interleaved di immagini e testo.
  • COHERENCE valuta la capacità di recuperare corrispondenze fine-grained.
  • Il lavoro proviene da arXiv, pubblicato nel 2025.

Entità

Istituzioni

  • arXiv

Fonti