Il Framework DocSeeker Migliora il Ragionamento Visivo dell'IA per Documenti Lunghi

ai-technology · 2026-04-15

Un nuovo articolo di ricerca introduce DocSeeker, un framework che affronta il degrado delle prestazioni nei Modelli Linguistici Multimodali di Grandi Dimensioni durante l'elaborazione di documenti estesi. L'approccio affronta due sfide fondamentali: il basso Rapporto Segnale-Rumore, dove le prove essenziali sono oscurate da pagine irrilevanti, e la scarsità di supervisione dai dataset che forniscono solo brevi risposte finali. DocSeeker implementa un flusso di lavoro strutturato che richiede ai modelli di eseguire Analisi, Localizzazione e Ragionamento. Per sviluppare questa capacità, i ricercatori hanno progettato un framework di addestramento in due fasi. La prima fase coinvolge la Supervised Fine-Tuning utilizzando dati di alta qualità prodotti attraverso una strategia efficiente di distillazione della conoscenza. La seconda fase impiega l'Evidence-aware Group Relative Policy Optimization, che ottimizza simultaneamente sia la localizzazione precisa delle prove che l'accuratezza delle risposte. Questa metodologia mira a migliorare il modo in cui i sistemi di IA comprendono e ragionano con documenti visivi complessi ed estesi. L'articolo è stato annunciato su arXiv con l'identificatore 2604.12812v1.

Fatti principali

DocSeeker affronta il declino delle prestazioni nei MLLM sui compiti con documenti lunghi.
Le due sfide principali sono il basso Rapporto Segnale-Rumore e la scarsità di supervisione.
Il framework impone un flusso di lavoro strutturato di Analisi, Localizzazione e Ragionamento.
L'addestramento coinvolge un processo in due fasi.
La fase uno utilizza la Supervised Fine-Tuning con dati provenienti dalla distillazione della conoscenza.
La fase due applica l'Evidence-aware Group Relative Policy Optimization.
L'ottimizzazione mira sia alla localizzazione delle prove che all'accuratezza delle risposte.
L'articolo è identificato come arXiv:2604.12812v1.

Il Framework DocSeeker Migliora il Ragionamento Visivo dell'IA per Documenti Lunghi

Fatti principali

Entità

Istituzioni

Fonti