ARTFEED — Contemporary Art Intelligence

Parser PDF leggero raggiunge il 96% di accuratezza nel rilevamento degli elementi visivi

publication · 2026-04-29

Un nuovo framework di parsing PDF leggero raggiunge oltre il 96% di accuratezza nel rilevamento di elementi visivi come figure, tabelle e moduli, e il 93% di accuratezza nell'associazione delle didascalie. Sviluppato per la generazione aumentata da recupero multimodale (RAG), il sistema utilizza euristiche spaziali, analisi del layout e similarità semantica per superare le limitazioni dei parser esistenti, che spesso perdono elementi visivi complessi, estraggono artefatti non informativi, producono elementi frammentati e non riescono ad associare in modo affidabile le didascalie. Il framework supera significativamente i metodi precedenti su dataset di benchmark e dati interni di prodotto, migliorando il recupero e il question answering downstream. L'articolo è disponibile su arXiv con identificativo 2604.23276.

Fatti principali

  • Il framework raggiunge ≥96% di accuratezza nel rilevamento degli elementi visivi.
  • L'accuratezza dell'associazione delle didascalie è del 93%.
  • Utilizza euristiche spaziali, analisi del layout e similarità semantica.
  • I parser esistenti spesso perdono elementi visivi complessi ed estraggono artefatti come filigrane e loghi.
  • La soluzione è progettata per la generazione aumentata da recupero multimodale (RAG).
  • Supera i metodi precedenti su dataset di benchmark e dati interni di prodotto.
  • L'articolo è pubblicato su arXiv con identificativo 2604.23276.
  • Il framework è leggero e pronto per la produzione.

Entità

Istituzioni

  • arXiv

Fonti