ARTFEED — Contemporary Art Intelligence

LiteParse: estrazione testo da PDF ora funziona nel browser

digital · 2026-04-24

Simon Willison ha portato lo strumento di estrazione testo da PDF LiteParse di LlamaIndex a funzionare interamente nel browser. LiteParse utilizza il parsing PDF tradizionale con fallback OCR Tesseract, non modelli AI. La versione browser è basata su PDF.js e Tesseract.js, distribuita tramite GitHub Pages all'indirizzo simonw.github.io/liteparse. Willison ha sviluppato il progetto usando Claude Code sul suo iPhone e laptop, con un tempo di costruzione totale di 59 minuti. Lo descrive come un puro progetto di "vibe coding", non avendo revisionato alcun codice HTML o TypeScript generato. Lo strumento supporta il parsing spaziale del testo per layout multi-colonna, OCR opzionale e visualizzazione delle immagini delle pagine. Willison ha aperto un issue nel repository originale di LiteParse ma non ha inviato una pull request. Il progetto è stato annunciato il 23 aprile 2026.

Fatti principali

  • LiteParse è uno strumento open source di estrazione testo da PDF di LlamaIndex.
  • La versione browser funziona interamente lato client usando PDF.js e Tesseract.js.
  • LiteParse utilizza parsing tradizionale e OCR, non modelli AI.
  • L'app web è distribuita su simonw.github.io/liteparse tramite GitHub Pages.
  • Simon Willison l'ha costruita usando Claude Code in 59 minuti.
  • Willison non ha revisionato alcun codice generato.
  • Lo strumento supporta il parsing spaziale del testo per layout multi-colonna.
  • Willison ha aperto un issue ma non una pull request al repository originale.

Entità

Istituzioni

  • LlamaIndex
  • GitHub
  • OpenAI

Fonti