MMTR-Bench: Benchmarking dei MLLM sulla Ricostruzione di Testo dal Contesto Visivo

ai-technology · 2026-04-25

Un nuovo benchmark chiamato MMTR-Bench è stato sviluppato dai ricercatori per valutare la capacità intrinseca dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) di ricostruire testo mascherato utilizzando il contesto visivo. A differenza dei tradizionali formati di domanda-risposta, MMTR-Bench non utilizza prompt espliciti, costringendo i modelli a recuperare testo mascherato da singole o multiple pagine in scenari reali come documenti e pagine web. Questo approccio separa il compito di ricostruzione dalle abilità di seguire istruzioni, consentendo una valutazione mirata della comprensione del layout, dell'ancoraggio visivo e dell'integrazione della conoscenza da parte del modello. Composto da 2.771 campioni di test in varie lingue e lunghezze target, i ricercatori introducono un metodo di valutazione basato sui livelli. I test su MLLM rappresentativi indicano che questo benchmark rappresenta una sfida considerevole, in particolare per la ricostruzione di frasi e paragrafi. La homepage è disponibile all'indirizzo https://.

Fatti principali

MMTR-Bench valuta i MLLM sulla ricostruzione di testo mascherato dal contesto visivo.
Il benchmark elimina i prompt espliciti, richiedendo ai modelli di recuperare il testo dall'input visivo.
Copre domini reali come documenti e pagine web.
MMTR-Bench include 2.771 campioni di test in più lingue.
Viene proposto un protocollo di valutazione basato sui livelli per diverse lunghezze target.
Gli esperimenti mostrano una sfida significativa per la ricostruzione a livello di frase e paragrafo.
Il benchmark isola la ricostruzione dalle abilità di seguire istruzioni.
Homepage: https://

MMTR-Bench: Benchmarking dei MLLM sulla Ricostruzione di Testo dal Contesto Visivo

Fatti principali

Entità

Istituzioni

Fonti