ARTFEED — Contemporary Art Intelligence

MMTR-Bench: Benchmarking dei MLLM sulla Ricostruzione di Testo dal Contesto Visivo

ai-technology · 2026-04-25

Un nuovo benchmark chiamato MMTR-Bench è stato sviluppato dai ricercatori per valutare la capacità intrinseca dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) di ricostruire testo mascherato utilizzando il contesto visivo. A differenza dei tradizionali formati di domanda-risposta, MMTR-Bench non utilizza prompt espliciti, costringendo i modelli a recuperare testo mascherato da singole o multiple pagine in scenari reali come documenti e pagine web. Questo approccio separa il compito di ricostruzione dalle abilità di seguire istruzioni, consentendo una valutazione mirata della comprensione del layout, dell'ancoraggio visivo e dell'integrazione della conoscenza da parte del modello. Composto da 2.771 campioni di test in varie lingue e lunghezze target, i ricercatori introducono un metodo di valutazione basato sui livelli. I test su MLLM rappresentativi indicano che questo benchmark rappresenta una sfida considerevole, in particolare per la ricostruzione di frasi e paragrafi. La homepage è disponibile all'indirizzo https://.

Fatti principali

  • MMTR-Bench valuta i MLLM sulla ricostruzione di testo mascherato dal contesto visivo.
  • Il benchmark elimina i prompt espliciti, richiedendo ai modelli di recuperare il testo dall'input visivo.
  • Copre domini reali come documenti e pagine web.
  • MMTR-Bench include 2.771 campioni di test in più lingue.
  • Viene proposto un protocollo di valutazione basato sui livelli per diverse lunghezze target.
  • Gli esperimenti mostrano una sfida significativa per la ricostruzione a livello di frase e paragrafo.
  • Il benchmark isola la ricostruzione dalle abilità di seguire istruzioni.
  • Homepage: https://

Entità

Istituzioni

  • arXiv

Fonti