Doc-CoB: Ragionamento Visivo a Catena di Riquadri per la Comprensione dei Documenti

other · 2026-05-27

Un nuovo framework noto come Doc-CoB (Chain-of-Boxes) è stato sviluppato per migliorare la comprensione dei documenti integrando un ragionamento visivo gerarchico (dal generale al dettaglio) consapevole del layout nei modelli linguistici di grandi dimensioni multimodali. Questo metodo supera le carenze delle tecniche attuali che trattano tutti i layout in modo uniforme o si concentrano eccessivamente su piccole sezioni. Doc-CoB si focalizza sistematicamente sui layout pertinenti alle query mantenendo una visione d'insieme dell'intero documento, identificando inizialmente i riquadri di layout cruciali e successivamente utilizzando il prompting visivo per una comprensione approfondita. Questo framework è progettato per l'estrazione di informazioni e il question answering da immagini di documenti, dove gli elementi visivi sono densi e le query sono legate a specifiche aree di layout. La ricerca è disponibile su arXiv con identificativo 2505.18603.

Fatti principali

Doc-CoB sta per Chain-of-Boxes
Integra il ragionamento visivo gerarchico (dal generale al dettaglio) consapevole del layout nei modelli linguistici di grandi dimensioni multimodali
Il framework seleziona i riquadri di layout chiave e poi si concentra su di essi con il prompting visivo
Preserva le informazioni globali del documento mentre si concentra sui layout pertinenti alla query
Il metodo affronta i limiti delle strategie a passaggio singolo e della focalizzazione eccessivamente ristretta
È progettato per il question answering e l'estrazione di informazioni da immagini di documenti
La ricerca è pubblicata su arXiv con identificativo 2505.18603
Il tipo di annuncio è replace

Doc-CoB: Ragionamento Visivo a Catena di Riquadri per la Comprensione dei Documenti

Fatti principali

Entità

Istituzioni

Fonti