Il Framework UniDoc-RL Avanza il Visual RAG con Azioni Gerarchiche e Ricompense Dense

ai-technology · 2026-04-20

Un nuovo framework per l'apprendimento per rinforzo, denominato UniDoc-RL, mira a superare le carenze degli attuali sistemi di Retrieval-Augmented Generation visiva. Questo metodo tratta l'acquisizione di dati visivi come una sfida decisionale sequenziale, utilizzando uno spazio d'azione gerarchico. UniDoc-RL consente ai Large Vision-Language Models di condurre simultaneamente attività di recupero, reranking, percezione visiva attiva e ragionamento. Il sistema migliora le evidenze visive dal recupero ampio di documenti alla selezione precisa di immagini e al ritaglio attivo di regioni, permettendo ai modelli di filtrare informazioni irrilevanti concentrandosi su aree di dati dense. Per facilitare un addestramento end-to-end efficace, viene introdotto uno schema di ricompense multiple dense per il feedback specifico del compito. Questa metodologia è descritta nel preprint arXiv 2604.14967v2, annunciato come sottomissione cross-type sostitutiva. La ricerca affronta il problema dei segnali di recupero generici che trascurano la cruciale semantica visiva fine-grain necessaria per ragionamenti complessi. Integrando conoscenza visiva esterna nei LVLM attraverso questo framework completo, il sistema aspira a migliorare le prestazioni su compiti che richiedono una comprensione sfumata del visivo.

Fatti principali

UniDoc-RL è un framework unificato di apprendimento per rinforzo per il visual RAG
Formula l'acquisizione di informazioni visive come processo decisionale sequenziale
Utilizza uno spazio d'azione gerarchico per il raffinamento progressivo delle evidenze
Consente recupero, reranking, percezione attiva e ragionamento congiunti
Progredisce dal recupero di documenti alla selezione di immagini fino al ritaglio di regioni
Introduce uno schema di ricompense multiple dense per l'addestramento end-to-end
Affronta le limitazioni dei segnali di recupero generici nei sistemi esistenti
Dettagliato nel preprint arXiv 2604.14967v2 annunciato come replace-cross

Entità

—

Fonti

arXiv cs.AI — 2026-04-20