NVIDIA rilascia il modello multilingue Nemotron OCR v2 addestrato su 12 milioni di immagini sintetiche

ai-technology · 2026-04-19

NVIDIA ha introdotto Nemotron OCR v2, un avanzato modello multilingue di riconoscimento ottico dei caratteri in grado di elaborare 34,7 pagine al secondo utilizzando una singola GPU A100. Questo modello supporta sei lingue: inglese, giapponese, coreano, russo, cinese e una lingua non specificata. È stato addestrato su un dataset composto da 12 milioni di immagini sintetiche derivate dal corpus web multilingue mOSCAR. Dotato di un'architettura di rilevamento condivisa (RegNetX-8GF), migliora i punteggi di Normalized Edit Distance per le lingue non inglesi da 0,56–0,92 a 0,035–0,069. Il supporto dei caratteri è aumentato da 855 a 14.244, includendo ora i caratteri CJK e cirillici. Il dataset è disponibile su nvidia/OCR-Synthetic-Multilingual-v1, mentre il modello si trova su nvidia/nemotron-ocr-v2. I principali contributori includono Bo Liu, Théo Viel e Mike Ranzinger.

Fatti principali

Nemotron OCR v2 elabora 34,7 pagine al secondo su una singola GPU A100
Addestrato su 12 milioni di immagini sintetiche in sei lingue
Utilizza una pipeline di dati sintetici basata su SynthDoG modificato dal progetto Donut
Supporta inglese, giapponese, coreano, russo, cinese e un'altra lingua
I punteggi di Normalized Edit Distance migliorati a 0,035–0,069 per le lingue non inglesi
Dataset disponibile su nvidia/OCR-Synthetic-Multilingual-v1 con licenza CC-BY-4.0
Modello disponibile su nvidia/nemotron-ocr-v2 con licenza NVIDIA Open Model License
Include un'architettura di rilevamento condivisa (RegNetX-8GF) per l'efficienza

Entità

Artisti

Bo Liu
Théo Viel
Mike Ranzinger

Istituzioni

NVIDIA
Google Fonts
Donut project
mOSCAR
SynthDoG
HierText
OmniDocBench
PaddleOCR
OpenOCR
FOTS
RegNetX-8GF
Transformer
Noto family
CC-BY-4.0
NVIDIA Open Model License

Fonti

Hugging Face Blog — 2026-04-17