ARTFEED — Contemporary Art Intelligence

Il Framework UniDoc-RL Avanza il Visual RAG con Azioni Gerarchiche e Ricompense Dense

ai-technology · 2026-04-20

Un nuovo framework per l'apprendimento per rinforzo, denominato UniDoc-RL, mira a superare le carenze degli attuali sistemi di Retrieval-Augmented Generation visiva. Questo metodo tratta l'acquisizione di dati visivi come una sfida decisionale sequenziale, utilizzando uno spazio d'azione gerarchico. UniDoc-RL consente ai Large Vision-Language Models di condurre simultaneamente attività di recupero, reranking, percezione visiva attiva e ragionamento. Il sistema migliora le evidenze visive dal recupero ampio di documenti alla selezione precisa di immagini e al ritaglio attivo di regioni, permettendo ai modelli di filtrare informazioni irrilevanti concentrandosi su aree di dati dense. Per facilitare un addestramento end-to-end efficace, viene introdotto uno schema di ricompense multiple dense per il feedback specifico del compito. Questa metodologia è descritta nel preprint arXiv 2604.14967v2, annunciato come sottomissione cross-type sostitutiva. La ricerca affronta il problema dei segnali di recupero generici che trascurano la cruciale semantica visiva fine-grain necessaria per ragionamenti complessi. Integrando conoscenza visiva esterna nei LVLM attraverso questo framework completo, il sistema aspira a migliorare le prestazioni su compiti che richiedono una comprensione sfumata del visivo.

Fatti principali

  • UniDoc-RL è un framework unificato di apprendimento per rinforzo per il visual RAG
  • Formula l'acquisizione di informazioni visive come processo decisionale sequenziale
  • Utilizza uno spazio d'azione gerarchico per il raffinamento progressivo delle evidenze
  • Consente recupero, reranking, percezione attiva e ragionamento congiunti
  • Progredisce dal recupero di documenti alla selezione di immagini fino al ritaglio di regioni
  • Introduce uno schema di ricompense multiple dense per l'addestramento end-to-end
  • Affronta le limitazioni dei segnali di recupero generici nei sistemi esistenti
  • Dettagliato nel preprint arXiv 2604.14967v2 annunciato come replace-cross

Entità

Fonti