LLM Locali e Parsing Sensibile al Layout per l'Estrazione di PDF Tabellari: Uno Studio sull'Affidabilità

other · 2026-05-25

Una ricerca valuta l'efficacia dell'estrazione di dati strutturati da PDF accademici presentati in tabelle, concentrandosi specificamente sui documenti di registrazione ai corsi indonesiani (Kartu Rencana Studi). Lo studio confronta tre metodi: solo LLM, un approccio ibrido deterministico-LLM (regex e LLM) e una pipeline basata su Camelot con fallback LLM. Gli esperimenti utilizzano 140 documenti per i test LLM e 860 per la pipeline Camelot, coprendo quattro diversi programmi di studio. Tre modelli LLM (Gemma 3, Phi 4, Qwen 2.5), ciascuno con 12-14 miliardi di parametri, vengono eseguiti localmente utilizzando Ollama su CPU consumer standard. Questa ricerca affronta questioni come l'integrazione di testo libero misto e tabelle, variazioni tra programmi e artefatti Unicode.

Fatti principali

Lo studio valuta l'affidabilità dell'estrazione di PDF tabellari utilizzando documenti KRS indonesiani.
Tre strategie confrontate: solo LLM, ibrido deterministico-LLM, Camelot con fallback LLM.
140 documenti utilizzati per i test LLM, 860 per la valutazione della pipeline Camelot.
Coperti quattro programmi di studio con dati variabili in tabelle e metadati.
Tre modelli LLM da 12-14B (Gemma 3, Phi 4, Qwen 2.5) eseguiti localmente tramite Ollama su CPU consumer.
Le sfide includono testo libero misto e tabelle, variazioni tra programmi e artefatti Unicode.

Entità

Istituzioni

Ollama

Luoghi

Indonesia

Fonti

arXiv cs.AI — 2026-05-25