ARTFEED — Contemporary Art Intelligence

Il Framework MARA Introduce Meccanismi Query-Adaptive per il Question Answering su Documenti Multimodali

ai-technology · 2026-04-22

Il framework Multimodal Adaptive Retrieval-Augmented (MARA) affronta le carenze nel question answering su documenti multimodali basato su retrieval. I metodi esistenti utilizzano rappresentazioni documentali query-agnostic, trascurando contenuti importanti e basandosi su una selezione di evidenze top-k statica, che non si adatta bene a distribuzioni informative incerte. MARA introduce meccanismi che si adattano alle query sia per il retrieval che per la generazione. Presenta un Query-Aligned Region Encoder che crea rappresentazioni documentali multilivello e le adegua in base alla loro rilevanza rispetto alla query, migliorando l'accuratezza del retrieval. Inoltre, il framework incorpora un Self-Re... (troncato nella fonte). Questo studio è stato pubblicato su arXiv con l'identificatore 2604.16313v1 come annuncio incrociato. Il question answering su documenti multimodali basato su retrieval mira a estrarre e combinare informazioni pertinenti da documenti complessi e visivamente ricchi. Sebbene la generazione aumentata da retrieval (RAG) abbia eccelso nel question answering testuale, la sua applicazione a documenti multimodali è ancora ampiamente inesplorata.

Fatti principali

  • Il framework Multimodal Adaptive Retrieval-Augmented (MARA) è proposto per il question answering su documenti multimodali.
  • Gli approcci attuali si basano su rappresentazioni documentali query-agnostic che trascurano contenuti salienti.
  • La selezione di evidenze top-k statica non riesce ad adattarsi alla distribuzione incerta delle informazioni rilevanti.
  • MARA introduce meccanismi query-adaptive sia per il retrieval che per la generazione.
  • Il framework include un Query-Aligned Region Encoder che costruisce rappresentazioni documentali multilivello.
  • Le rappresentazioni vengono ripesate in base alla rilevanza della query per migliorare la precisione del retrieval.
  • La ricerca è stata annunciata su arXiv con l'identificatore 2604.16313v1.
  • La generazione aumentata da retrieval (RAG) ha mostrato prestazioni solide nel question answering testuale, ma le estensioni ai documenti multimodali sono poco esplorate.

Entità

Istituzioni

  • arXiv

Fonti