MPDocBench-Parse: Nuovo Benchmark per l'Analisi di Documenti Multi-Pagina
MPDocBench-Parse è stato lanciato da ricercatori come benchmark volto a valutare l'analisi di documenti multi-pagina in contesti reali. Questo nuovo benchmark affronta le carenze delle valutazioni attuali che si concentrano esclusivamente su ambienti a singola pagina o incentrati sul testo. Presenta 433 documenti, annotati manualmente, che comprendono 3.246 pagine in 15 tipi di documenti in inglese e cinese, mostrando varie disposizioni di layout. Inoltre, facilita la valutazione end-to-end a livello di documento e offre un protocollo completo per il recupero della fedeltà dei contenuti e della struttura logica. Questa iniziativa mira a migliorare l'analisi dei documenti stabilendo un quadro di valutazione più applicabile.
Fatti principali
- MPDocBench-Parse è un benchmark per l'analisi di documenti multi-pagina.
- Contiene 433 documenti annotati manualmente con 3.246 pagine.
- Copre 15 tipi di documenti in inglese e cinese.
- Supporta la valutazione end-to-end a livello di documento.
- Progettato per scenari realistici e pratici.
- Affronta le lacune nei benchmark esistenti che si concentrano su ambienti a singola pagina o incentrati sul testo.
- Include un protocollo completo per il recupero della fedeltà dei contenuti e della struttura logica.
- Pubblicato su arXiv con ID 2605.22100.
Entità
—