ARTFEED — Contemporary Art Intelligence

Doc-CoB: Ragionamento Visivo a Catena di Riquadri per la Comprensione dei Documenti

other · 2026-05-27

Un nuovo framework noto come Doc-CoB (Chain-of-Boxes) è stato sviluppato per migliorare la comprensione dei documenti integrando un ragionamento visivo gerarchico (dal generale al dettaglio) consapevole del layout nei modelli linguistici di grandi dimensioni multimodali. Questo metodo supera le carenze delle tecniche attuali che trattano tutti i layout in modo uniforme o si concentrano eccessivamente su piccole sezioni. Doc-CoB si focalizza sistematicamente sui layout pertinenti alle query mantenendo una visione d'insieme dell'intero documento, identificando inizialmente i riquadri di layout cruciali e successivamente utilizzando il prompting visivo per una comprensione approfondita. Questo framework è progettato per l'estrazione di informazioni e il question answering da immagini di documenti, dove gli elementi visivi sono densi e le query sono legate a specifiche aree di layout. La ricerca è disponibile su arXiv con identificativo 2505.18603.

Fatti principali

  • Doc-CoB sta per Chain-of-Boxes
  • Integra il ragionamento visivo gerarchico (dal generale al dettaglio) consapevole del layout nei modelli linguistici di grandi dimensioni multimodali
  • Il framework seleziona i riquadri di layout chiave e poi si concentra su di essi con il prompting visivo
  • Preserva le informazioni globali del documento mentre si concentra sui layout pertinenti alla query
  • Il metodo affronta i limiti delle strategie a passaggio singolo e della focalizzazione eccessivamente ristretta
  • È progettato per il question answering e l'estrazione di informazioni da immagini di documenti
  • La ricerca è pubblicata su arXiv con identificativo 2505.18603
  • Il tipo di annuncio è replace

Entità

Istituzioni

  • arXiv

Fonti