LFRAG: Recupero a Livello di Blocco per la Comprensione di Documenti Multimodali

ai-technology · 2026-05-25

Un nuovo framework chiamato LFRAG (Layout-oriented Fine-grained Retrieval-Augmented Generation) migliora la comprensione dei documenti multimodali passando dal recupero a livello di pagina al recupero a livello di blocco. I sistemi RAG multimodali esistenti si basano su un recupero a livello di pagina grossolano, perdendo le strutture semantiche e di layout fini nei documenti ricchi di elementi visivi, compromettendo l'accuratezza e aggiungendo contesto ridondante. LFRAG esegue la segmentazione del layout per creare unità di recupero semanticamente coerenti e fini, e utilizza un encoder di fusione semantico-layout con attenzione incrociata per integrare la semantica locale con il contesto globale. Il recupero a interazione tardiva a livello di blocco consente un allineamento preciso tra query e contenuto. L'articolo è pubblicato su arXiv con ID 2605.22829.

Fatti principali

LFRAG sta per Layout-oriented Fine-grained Retrieval-Augmented Generation.
Fa progredire il RAG multimodale dal recupero a livello di pagina a quello a livello di blocco.
La segmentazione del layout costruisce unità di recupero fini.
Un encoder di fusione semantico-layout utilizza l'attenzione incrociata.
Il recupero a interazione tardiva a livello di blocco migliora l'allineamento tra query e contenuto.
L'articolo è su arXiv:2605.22829.
I sistemi RAG multimodali esistenti utilizzano un recupero a livello di pagina grossolano.
L'approccio riduce il contesto ridondante nei compiti downstream.

LFRAG: Recupero a Livello di Blocco per la Comprensione di Documenti Multimodali

Fatti principali

Entità

Istituzioni

Fonti