ARTFEED — Contemporary Art Intelligence

NVIDIA rilascia il modello multilingue Nemotron OCR v2 addestrato su 12 milioni di immagini sintetiche

ai-technology · 2026-04-19

NVIDIA ha introdotto Nemotron OCR v2, un avanzato modello multilingue di riconoscimento ottico dei caratteri in grado di elaborare 34,7 pagine al secondo utilizzando una singola GPU A100. Questo modello supporta sei lingue: inglese, giapponese, coreano, russo, cinese e una lingua non specificata. È stato addestrato su un dataset composto da 12 milioni di immagini sintetiche derivate dal corpus web multilingue mOSCAR. Dotato di un'architettura di rilevamento condivisa (RegNetX-8GF), migliora i punteggi di Normalized Edit Distance per le lingue non inglesi da 0,56–0,92 a 0,035–0,069. Il supporto dei caratteri è aumentato da 855 a 14.244, includendo ora i caratteri CJK e cirillici. Il dataset è disponibile su nvidia/OCR-Synthetic-Multilingual-v1, mentre il modello si trova su nvidia/nemotron-ocr-v2. I principali contributori includono Bo Liu, Théo Viel e Mike Ranzinger.

Fatti principali

  • Nemotron OCR v2 elabora 34,7 pagine al secondo su una singola GPU A100
  • Addestrato su 12 milioni di immagini sintetiche in sei lingue
  • Utilizza una pipeline di dati sintetici basata su SynthDoG modificato dal progetto Donut
  • Supporta inglese, giapponese, coreano, russo, cinese e un'altra lingua
  • I punteggi di Normalized Edit Distance migliorati a 0,035–0,069 per le lingue non inglesi
  • Dataset disponibile su nvidia/OCR-Synthetic-Multilingual-v1 con licenza CC-BY-4.0
  • Modello disponibile su nvidia/nemotron-ocr-v2 con licenza NVIDIA Open Model License
  • Include un'architettura di rilevamento condivisa (RegNetX-8GF) per l'efficienza

Entità

Artisti

  • Bo Liu
  • Théo Viel
  • Mike Ranzinger

Istituzioni

  • NVIDIA
  • Google Fonts
  • Donut project
  • mOSCAR
  • SynthDoG
  • HierText
  • OmniDocBench
  • PaddleOCR
  • OpenOCR
  • FOTS
  • RegNetX-8GF
  • Transformer
  • Noto family
  • CC-BY-4.0
  • NVIDIA Open Model License

Fonti