I VLM generano testo OCR plausibile ma visivamente infondato nelle edizioni critiche di greco antico

ai-technology · 2026-05-28

Uno studio su arXiv (2605.27750) rivela che i modelli linguistico-visivi (VLM) utilizzati per l'OCR in edizioni critiche di greco antico a basse risorse producono testo fluente ma visivamente infondato, a differenza dell'OCR tradizionale che genera rumore di riconoscimento locale. I ricercatori hanno introdotto perturbazioni controllate delle immagini e misure di grounding a livello di token per analizzare l'evidenza visiva durante la decodifica. Sotto perturbazioni a livello di carattere, i VLM si sono discostati nettamente dalla verità di base perturbata, mentre l'OCR tradizionale è rimasto fedele. L'analisi a livello di token ha mostrato che la dipendenza dalle conoscenze pregresse è specifica del modello; un modello specializzato in OCR ha prodotto errori lessicali fluenti con scarsa dipendenza dall'input visivo.

Fatti principali

Il paper arXiv 2605.27750 esamina i fallimenti dei VLM nell'OCR per edizioni critiche di greco antico.
I VLM generano testo plausibile ma visivamente infondato, basandosi su conoscenze linguistiche pregresse.
L'OCR tradizionale produce rumore di riconoscimento locale anziché errori fluenti.
Sono state introdotte perturbazioni controllate delle immagini e misure di grounding a livello di token.
Sotto perturbazioni a livello di carattere, i VLM si sono discostati dalla verità di base; l'OCR tradizionale è rimasto fedele.
La dipendenza dalle conoscenze pregresse è specifica del modello; un modello specializzato in OCR ha mostrato scarsa dipendenza visiva.
Lo studio confronta VLM a pesi aperti con baseline OCR tradizionali.
Il greco antico è una lingua a basse risorse per l'OCR.

I VLM generano testo OCR plausibile ma visivamente infondato nelle edizioni critiche di greco antico

Fatti principali

Entità

Istituzioni

Fonti