Modello 3B Specializzato Supera l'IA Frontier in Qualità OCR, Costi e Stabilità

ai-technology · 2026-05-22

Ad aprile, Dharma ha presentato DharmaOCR, un insieme di modelli linguistici piccoli e su misura progettati per l'OCR strutturato, insieme a un benchmark e un documento di accompagnamento. Un modello specializzato con 3 miliardi di parametri ha raggiunto un punteggio composito di 0,911 sul benchmark, superando Claude Opus 4.6 (0,833), Gemini 3.1 Pro (0,820) e GPT-5.4 (0,750). Il suo costo operativo era circa cinquantadue volte inferiore per milione di pagine rispetto a Claude Opus 4.6 e ha registrato il tasso di degenerazione del testo più basso, pari allo 0,20%. Il documento sostiene che l'allineamento con i compiti di implementazione sia più critico del numero di parametri. Inoltre, un modello già ottimizzato per l'OCR generale ha mostrato maggiori guadagni da regolazioni specifiche del dominio rispetto a un modello per scopi generali di architettura simile, sfidando la nozione che i modelli più grandi siano sempre superiori per i compiti di IA aziendale.

Fatti principali

Dharma ha rilasciato DharmaOCR, una coppia di modelli linguistici piccoli e specializzati per l'OCR strutturato, ad aprile.
Un modello specializzato con 3 miliardi di parametri ha ottenuto un punteggio composito di 0,911 sul benchmark.
Claude Opus 4.6 ha ottenuto 0,833, Gemini 3.1 Pro 0,820, GPT-5.4 0,750, Google Vision 0,686, Google Document AI 0,640, GPT-4o 0,635, Amazon Textract 0,618, Mistral OCR 3 0,574.
Il modello specializzato 3B ha operato a un costo circa cinquantadue volte inferiore per milione di pagine rispetto a Claude Opus 4.6.
Il modello specializzato 3B ha avuto un tasso di degenerazione del testo dello 0,20%, il più basso valutato.
Il documento afferma che l'allineamento distribuzionale con il compito di implementazione è più decisivo del conteggio dei parametri.
La specializzazione si accumula: un modello già specializzato per l'OCR generale ha beneficiato maggiormente dell'ottimizzazione specifica del dominio rispetto a un modello per scopi generali.
I risultati sfidano l'assunzione che i modelli frontier più grandi siano sempre la scelta migliore per i carichi di lavoro di IA aziendale.

Entità

Istituzioni

Dharma
Hugging Face
OpenAI
Anthropic
Google
Amazon

Fonti

Hugging Face Blog — 2026-05-22