LFRAG: Recupero a Livello di Blocco per la Comprensione di Documenti Multimodali
Un nuovo framework chiamato LFRAG (Layout-oriented Fine-grained Retrieval-Augmented Generation) migliora la comprensione dei documenti multimodali passando dal recupero a livello di pagina al recupero a livello di blocco. I sistemi RAG multimodali esistenti si basano su un recupero a livello di pagina grossolano, perdendo le strutture semantiche e di layout fini nei documenti ricchi di elementi visivi, compromettendo l'accuratezza e aggiungendo contesto ridondante. LFRAG esegue la segmentazione del layout per creare unità di recupero semanticamente coerenti e fini, e utilizza un encoder di fusione semantico-layout con attenzione incrociata per integrare la semantica locale con il contesto globale. Il recupero a interazione tardiva a livello di blocco consente un allineamento preciso tra query e contenuto. L'articolo è pubblicato su arXiv con ID 2605.22829.
Fatti principali
- LFRAG sta per Layout-oriented Fine-grained Retrieval-Augmented Generation.
- Fa progredire il RAG multimodale dal recupero a livello di pagina a quello a livello di blocco.
- La segmentazione del layout costruisce unità di recupero fini.
- Un encoder di fusione semantico-layout utilizza l'attenzione incrociata.
- Il recupero a interazione tardiva a livello di blocco migliora l'allineamento tra query e contenuto.
- L'articolo è su arXiv:2605.22829.
- I sistemi RAG multimodali esistenti utilizzano un recupero a livello di pagina grossolano.
- L'approccio riduce il contesto ridondante nei compiti downstream.
Entità
Istituzioni
- arXiv