Il Framework MARA Introduce Meccanismi Query-Adaptive per il Question Answering su Documenti Multimodali

ai-technology · 2026-04-22

Il framework Multimodal Adaptive Retrieval-Augmented (MARA) affronta le carenze nel question answering su documenti multimodali basato su retrieval. I metodi esistenti utilizzano rappresentazioni documentali query-agnostic, trascurando contenuti importanti e basandosi su una selezione di evidenze top-k statica, che non si adatta bene a distribuzioni informative incerte. MARA introduce meccanismi che si adattano alle query sia per il retrieval che per la generazione. Presenta un Query-Aligned Region Encoder che crea rappresentazioni documentali multilivello e le adegua in base alla loro rilevanza rispetto alla query, migliorando l'accuratezza del retrieval. Inoltre, il framework incorpora un Self-Re... (troncato nella fonte). Questo studio è stato pubblicato su arXiv con l'identificatore 2604.16313v1 come annuncio incrociato. Il question answering su documenti multimodali basato su retrieval mira a estrarre e combinare informazioni pertinenti da documenti complessi e visivamente ricchi. Sebbene la generazione aumentata da retrieval (RAG) abbia eccelso nel question answering testuale, la sua applicazione a documenti multimodali è ancora ampiamente inesplorata.

Fatti principali

Il framework Multimodal Adaptive Retrieval-Augmented (MARA) è proposto per il question answering su documenti multimodali.
Gli approcci attuali si basano su rappresentazioni documentali query-agnostic che trascurano contenuti salienti.
La selezione di evidenze top-k statica non riesce ad adattarsi alla distribuzione incerta delle informazioni rilevanti.
MARA introduce meccanismi query-adaptive sia per il retrieval che per la generazione.
Il framework include un Query-Aligned Region Encoder che costruisce rappresentazioni documentali multilivello.
Le rappresentazioni vengono ripesate in base alla rilevanza della query per migliorare la precisione del retrieval.
La ricerca è stata annunciata su arXiv con l'identificatore 2604.16313v1.
La generazione aumentata da retrieval (RAG) ha mostrato prestazioni solide nel question answering testuale, ma le estensioni ai documenti multimodali sono poco esplorate.

Il Framework MARA Introduce Meccanismi Query-Adaptive per il Question Answering su Documenti Multimodali

Fatti principali

Entità

Istituzioni

Fonti