M3DocDep: Chunking di Documenti Multipagina Basato su LVLM per RAG
I ricercatori propongono M3DocDep, una pipeline che utilizza grandi modelli visione-linguaggio (LVLM) per migliorare il chunking dei documenti per la generazione aumentata da recupero (RAG) in documenti industriali multipagina. Il metodo recupera le dipendenze a livello di blocco e costruisce chunk lungo un albero del documento, affrontando problemi come le relazioni genitore-figlio tra pagine e i legami figura-didascalia. Impiega SharedDet per OCR, SoftROI pooling per embedding di blocchi, una testa biaffine per il punteggio degli archi e vincoli MST per la decodifica dell'albero. L'approccio è dettagliato nell'articolo arXiv 2605.18774.
Fatti principali
- M3DocDep è una pipeline basata su LVLM per il chunking di dipendenze multimodale, multipagina e multi-documento.
- Recupera le dipendenze a livello di blocco e costruisce chunk lungo l'albero del documento recuperato.
- La pipeline utilizza SharedDet come livello comune di pre-elaborazione DP+OCR.
- Estrae embedding multimodali di blocchi con SoftROI pooling sensibile ai confini.
- Gli archi candidati genitore-figlio vengono valutati con una testa biaffine.
- Un albero di dipendenze globalmente valido viene decodificato con vincoli MST.
- I chunk guidati dall'albero vengono annotati con percorsi di sezione e intervalli di pagine.
- Il metodo mira a migliorare il RAG preservando la struttura del documento.
Entità
Istituzioni
- arXiv