MMTR-Bench: Benchmarking dei MLLM sulla Ricostruzione di Testo dal Contesto Visivo
Un nuovo benchmark chiamato MMTR-Bench è stato sviluppato dai ricercatori per valutare la capacità intrinseca dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) di ricostruire testo mascherato utilizzando il contesto visivo. A differenza dei tradizionali formati di domanda-risposta, MMTR-Bench non utilizza prompt espliciti, costringendo i modelli a recuperare testo mascherato da singole o multiple pagine in scenari reali come documenti e pagine web. Questo approccio separa il compito di ricostruzione dalle abilità di seguire istruzioni, consentendo una valutazione mirata della comprensione del layout, dell'ancoraggio visivo e dell'integrazione della conoscenza da parte del modello. Composto da 2.771 campioni di test in varie lingue e lunghezze target, i ricercatori introducono un metodo di valutazione basato sui livelli. I test su MLLM rappresentativi indicano che questo benchmark rappresenta una sfida considerevole, in particolare per la ricostruzione di frasi e paragrafi. La homepage è disponibile all'indirizzo https://.
Fatti principali
- MMTR-Bench valuta i MLLM sulla ricostruzione di testo mascherato dal contesto visivo.
- Il benchmark elimina i prompt espliciti, richiedendo ai modelli di recuperare il testo dall'input visivo.
- Copre domini reali come documenti e pagine web.
- MMTR-Bench include 2.771 campioni di test in più lingue.
- Viene proposto un protocollo di valutazione basato sui livelli per diverse lunghezze target.
- Gli esperimenti mostrano una sfida significativa per la ricostruzione a livello di frase e paragrafo.
- Il benchmark isola la ricostruzione dalle abilità di seguire istruzioni.
- Homepage: https://
Entità
Istituzioni
- arXiv