Parser PDF leggero raggiunge il 96% di accuratezza nel rilevamento degli elementi visivi

publication · 2026-04-29

Un nuovo framework di parsing PDF leggero raggiunge oltre il 96% di accuratezza nel rilevamento di elementi visivi come figure, tabelle e moduli, e il 93% di accuratezza nell'associazione delle didascalie. Sviluppato per la generazione aumentata da recupero multimodale (RAG), il sistema utilizza euristiche spaziali, analisi del layout e similarità semantica per superare le limitazioni dei parser esistenti, che spesso perdono elementi visivi complessi, estraggono artefatti non informativi, producono elementi frammentati e non riescono ad associare in modo affidabile le didascalie. Il framework supera significativamente i metodi precedenti su dataset di benchmark e dati interni di prodotto, migliorando il recupero e il question answering downstream. L'articolo è disponibile su arXiv con identificativo 2604.23276.

Fatti principali

Il framework raggiunge ≥96% di accuratezza nel rilevamento degli elementi visivi.
L'accuratezza dell'associazione delle didascalie è del 93%.
Utilizza euristiche spaziali, analisi del layout e similarità semantica.
I parser esistenti spesso perdono elementi visivi complessi ed estraggono artefatti come filigrane e loghi.
La soluzione è progettata per la generazione aumentata da recupero multimodale (RAG).
Supera i metodi precedenti su dataset di benchmark e dati interni di prodotto.
L'articolo è pubblicato su arXiv con identificativo 2604.23276.
Il framework è leggero e pronto per la produzione.

Parser PDF leggero raggiunge il 96% di accuratezza nel rilevamento degli elementi visivi

Fatti principali

Entità

Istituzioni

Fonti