ARTFEED — Contemporary Art Intelligence

M3DocDep: Chunking di Documenti Multipagina Basato su LVLM per RAG

other · 2026-05-20

I ricercatori propongono M3DocDep, una pipeline che utilizza grandi modelli visione-linguaggio (LVLM) per migliorare il chunking dei documenti per la generazione aumentata da recupero (RAG) in documenti industriali multipagina. Il metodo recupera le dipendenze a livello di blocco e costruisce chunk lungo un albero del documento, affrontando problemi come le relazioni genitore-figlio tra pagine e i legami figura-didascalia. Impiega SharedDet per OCR, SoftROI pooling per embedding di blocchi, una testa biaffine per il punteggio degli archi e vincoli MST per la decodifica dell'albero. L'approccio è dettagliato nell'articolo arXiv 2605.18774.

Fatti principali

  • M3DocDep è una pipeline basata su LVLM per il chunking di dipendenze multimodale, multipagina e multi-documento.
  • Recupera le dipendenze a livello di blocco e costruisce chunk lungo l'albero del documento recuperato.
  • La pipeline utilizza SharedDet come livello comune di pre-elaborazione DP+OCR.
  • Estrae embedding multimodali di blocchi con SoftROI pooling sensibile ai confini.
  • Gli archi candidati genitore-figlio vengono valutati con una testa biaffine.
  • Un albero di dipendenze globalmente valido viene decodificato con vincoli MST.
  • I chunk guidati dall'albero vengono annotati con percorsi di sezione e intervalli di pagine.
  • Il metodo mira a migliorare il RAG preservando la struttura del documento.

Entità

Istituzioni

  • arXiv

Fonti