Nuovi benchmark rivelano incoerenza cross-modale nei MLLM

ai-technology · 2026-04-24

I ricercatori hanno introdotto REST e REST+, due benchmark per valutare l'incoerenza cross-modale nei modelli linguistici multimodali di grandi dimensioni (MLLM). Questi benchmark contengono campioni con informazioni semantiche identiche attraverso modalità immagine, testo e miste. Valutando 15 MLLM all'avanguardia, lo studio ha riscontrato una variazione sostanziale nell'incoerenza tra le modalità, anche tenendo conto degli errori OCR. Né la resa del testo come immagine né dell'immagine come testo ha risolto l'incoerenza. Caratteristiche visive come il colore del testo e la risoluzione, ma non il font, e il numero di token visivi hanno influenzato le prestazioni.

Fatti principali

REST e REST+ sono nuovi benchmark per l'incoerenza cross-modale.
I benchmark includono campioni con le stesse informazioni in modalità immagine, testo e miste.
Sono stati valutati 15 MLLM all'avanguardia.
L'incoerenza tra le modalità varia sostanzialmente tra i modelli.
Gli errori OCR non spiegano completamente l'incoerenza.
Rendere il testo come immagine o l'immagine come testo non risolve l'incoerenza.
Il colore del testo e la risoluzione influenzano le prestazioni; il font no.
Il numero di token visivi influisce sulle prestazioni del modello.

Entità

—

Fonti

arXiv cs.AI — 2026-04-23