COHERENCE: un benchmark per testare la capacità di allineamento fine-grained tra immagini e testo nei MLLM
I ricercatori hanno introdotto COHERENCE, un benchmark progettato per valutare la capacità dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) di recuperare corrispondenze fine-grained tra immagini e testo in contesti interleaved. Mentre i benchmark esistenti si concentrano sulla comprensione di singole immagini o di più immagini, scenari reali come la lettura di documenti richiedono che i modelli identifichino le prove testuali e visive pertinenti, stabiliscano allineamenti e ragionino su contesti interleaved. COHERENCE mira a colmare la lacuna nella valutazione sistematica di questa capacità di comprensione fine-grained.
Fatti principali
- COHERENCE è un benchmark per l'allineamento fine-grained tra immagini e testo in contesti interleaved.
- I benchmark MLLM esistenti si concentrano principalmente sulla comprensione di singole immagini o di più immagini.
- Scenari reali come la lettura di documenti richiedono una comprensione multimodale interleaved.
- I MLLM devono identificare le prove testuali e visive pertinenti e stabilire allineamenti.
- Il benchmark è stato introdotto nell'articolo arXiv 2604.27389.
- Affronta la mancanza di benchmark sistematici per contesti interleaved di immagini e testo.
- COHERENCE valuta la capacità di recuperare corrispondenze fine-grained.
- Il lavoro proviene da arXiv, pubblicato nel 2025.
Entità
Istituzioni
- arXiv