EnterpriseDocBench: Un Nuovo Benchmark per Pipeline IA Documentali Multimodali
I ricercatori hanno sviluppato EnterpriseDocBench, un framework di valutazione unificato per pipeline IA documentali aziendali che valuta la fedeltà del parsing, l'efficienza dell'indicizzazione, la rilevanza del recupero e la fondatezza della generazione sullo stesso corpus. Il corpus comprende documenti pubblici con licenza permissiva provenienti da sei domini aziendali (cinque nel pilota). Sono state testate tre pipeline: BM25, embedding denso e ibrida, tutte utilizzando lo stesso generatore GPT-5. I risultati mostrano che il recupero ibrido supera di poco BM25 (nDCG@5 di 0,92 contro 0,91), mentre l'embedding denso è in ritardo con 0,83. I tassi di allucinazione non sono monotoni rispetto alla lunghezza del documento: i documenti brevi e molto lunghi allucinano di più (28,1% e 23,8%) rispetto a quelli di media lunghezza (9,2%). Le correlazioni tra le fasi sono molto deboli, indicando che ottimizzare singole fasi non garantisce le prestazioni complessive della pipeline. Il lavoro è descritto in arXiv:2604.26382.
Fatti principali
- 1. EnterpriseDocBench valuta parsing, indicizzazione, recupero e generazione sullo stesso corpus.
- 2. Il corpus include sei domini aziendali, cinque nell'attuale pilota.
- 3. Tre pipeline testate: BM25, embedding denso e ibrida.
- 4. Tutte le pipeline utilizzano GPT-5 come generatore.
- 5. Il recupero ibrido raggiunge nDCG@5 di 0,92, BM25 0,91, embedding denso 0,83.
- 6. Tassi di allucinazione: documenti brevi 28,1%, molto lunghi 23,8%, medi 9,2%.
- 7. Le correlazioni tra le fasi sono molto deboli.
- 8. Articolo disponibile su arXiv con ID 2604.26382.
Entità
Istituzioni
- arXiv