COHERENCE: un benchmark per testare la capacità di allineamento fine-grained tra immagini e testo nei MLLM

ai-technology · 2026-05-01

I ricercatori hanno introdotto COHERENCE, un benchmark progettato per valutare la capacità dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) di recuperare corrispondenze fine-grained tra immagini e testo in contesti interleaved. Mentre i benchmark esistenti si concentrano sulla comprensione di singole immagini o di più immagini, scenari reali come la lettura di documenti richiedono che i modelli identifichino le prove testuali e visive pertinenti, stabiliscano allineamenti e ragionino su contesti interleaved. COHERENCE mira a colmare la lacuna nella valutazione sistematica di questa capacità di comprensione fine-grained.

Fatti principali

COHERENCE è un benchmark per l'allineamento fine-grained tra immagini e testo in contesti interleaved.
I benchmark MLLM esistenti si concentrano principalmente sulla comprensione di singole immagini o di più immagini.
Scenari reali come la lettura di documenti richiedono una comprensione multimodale interleaved.
I MLLM devono identificare le prove testuali e visive pertinenti e stabilire allineamenti.
Il benchmark è stato introdotto nell'articolo arXiv 2604.27389.
Affronta la mancanza di benchmark sistematici per contesti interleaved di immagini e testo.
COHERENCE valuta la capacità di recuperare corrispondenze fine-grained.
Il lavoro proviene da arXiv, pubblicato nel 2025.

COHERENCE: un benchmark per testare la capacità di allineamento fine-grained tra immagini e testo nei MLLM

Fatti principali

Entità

Istituzioni

Fonti