Parser PDF leggero raggiunge il 96% di accuratezza nel rilevamento degli elementi visivi
Un nuovo framework di parsing PDF leggero raggiunge oltre il 96% di accuratezza nel rilevamento di elementi visivi come figure, tabelle e moduli, e il 93% di accuratezza nell'associazione delle didascalie. Sviluppato per la generazione aumentata da recupero multimodale (RAG), il sistema utilizza euristiche spaziali, analisi del layout e similarità semantica per superare le limitazioni dei parser esistenti, che spesso perdono elementi visivi complessi, estraggono artefatti non informativi, producono elementi frammentati e non riescono ad associare in modo affidabile le didascalie. Il framework supera significativamente i metodi precedenti su dataset di benchmark e dati interni di prodotto, migliorando il recupero e il question answering downstream. L'articolo è disponibile su arXiv con identificativo 2604.23276.
Fatti principali
- Il framework raggiunge ≥96% di accuratezza nel rilevamento degli elementi visivi.
- L'accuratezza dell'associazione delle didascalie è del 93%.
- Utilizza euristiche spaziali, analisi del layout e similarità semantica.
- I parser esistenti spesso perdono elementi visivi complessi ed estraggono artefatti come filigrane e loghi.
- La soluzione è progettata per la generazione aumentata da recupero multimodale (RAG).
- Supera i metodi precedenti su dataset di benchmark e dati interni di prodotto.
- L'articolo è pubblicato su arXiv con identificativo 2604.23276.
- Il framework è leggero e pronto per la produzione.
Entità
Istituzioni
- arXiv