Il Framework MARA Introduce Meccanismi Query-Adaptive per il Question Answering su Documenti Multimodali
Il framework Multimodal Adaptive Retrieval-Augmented (MARA) affronta le carenze nel question answering su documenti multimodali basato su retrieval. I metodi esistenti utilizzano rappresentazioni documentali query-agnostic, trascurando contenuti importanti e basandosi su una selezione di evidenze top-k statica, che non si adatta bene a distribuzioni informative incerte. MARA introduce meccanismi che si adattano alle query sia per il retrieval che per la generazione. Presenta un Query-Aligned Region Encoder che crea rappresentazioni documentali multilivello e le adegua in base alla loro rilevanza rispetto alla query, migliorando l'accuratezza del retrieval. Inoltre, il framework incorpora un Self-Re... (troncato nella fonte). Questo studio è stato pubblicato su arXiv con l'identificatore 2604.16313v1 come annuncio incrociato. Il question answering su documenti multimodali basato su retrieval mira a estrarre e combinare informazioni pertinenti da documenti complessi e visivamente ricchi. Sebbene la generazione aumentata da retrieval (RAG) abbia eccelso nel question answering testuale, la sua applicazione a documenti multimodali è ancora ampiamente inesplorata.
Fatti principali
- Il framework Multimodal Adaptive Retrieval-Augmented (MARA) è proposto per il question answering su documenti multimodali.
- Gli approcci attuali si basano su rappresentazioni documentali query-agnostic che trascurano contenuti salienti.
- La selezione di evidenze top-k statica non riesce ad adattarsi alla distribuzione incerta delle informazioni rilevanti.
- MARA introduce meccanismi query-adaptive sia per il retrieval che per la generazione.
- Il framework include un Query-Aligned Region Encoder che costruisce rappresentazioni documentali multilivello.
- Le rappresentazioni vengono ripesate in base alla rilevanza della query per migliorare la precisione del retrieval.
- La ricerca è stata annunciata su arXiv con l'identificatore 2604.16313v1.
- La generazione aumentata da retrieval (RAG) ha mostrato prestazioni solide nel question answering testuale, ma le estensioni ai documenti multimodali sono poco esplorate.
Entità
Istituzioni
- arXiv