LiteParse: estrazione testo da PDF ora funziona nel browser

digital · 2026-04-24

Simon Willison ha portato lo strumento di estrazione testo da PDF LiteParse di LlamaIndex a funzionare interamente nel browser. LiteParse utilizza il parsing PDF tradizionale con fallback OCR Tesseract, non modelli AI. La versione browser è basata su PDF.js e Tesseract.js, distribuita tramite GitHub Pages all'indirizzo simonw.github.io/liteparse. Willison ha sviluppato il progetto usando Claude Code sul suo iPhone e laptop, con un tempo di costruzione totale di 59 minuti. Lo descrive come un puro progetto di "vibe coding", non avendo revisionato alcun codice HTML o TypeScript generato. Lo strumento supporta il parsing spaziale del testo per layout multi-colonna, OCR opzionale e visualizzazione delle immagini delle pagine. Willison ha aperto un issue nel repository originale di LiteParse ma non ha inviato una pull request. Il progetto è stato annunciato il 23 aprile 2026.

Fatti principali

LiteParse è uno strumento open source di estrazione testo da PDF di LlamaIndex.
La versione browser funziona interamente lato client usando PDF.js e Tesseract.js.
LiteParse utilizza parsing tradizionale e OCR, non modelli AI.
L'app web è distribuita su simonw.github.io/liteparse tramite GitHub Pages.
Simon Willison l'ha costruita usando Claude Code in 59 minuti.
Willison non ha revisionato alcun codice generato.
Lo strumento supporta il parsing spaziale del testo per layout multi-colonna.
Willison ha aperto un issue ma non una pull request al repository originale.

LiteParse: estrazione testo da PDF ora funziona nel browser

Fatti principali

Entità

Istituzioni

Fonti