Dataset di testi manoscritti ucraini e modello di trasferimento di stile cross-dominio
È stato creato un nuovo modello basato su diffusione per la generazione di testo manoscritto ucraino, colmando una lacuna nella generazione di scrittura a mano in alfabeti non latini. I ricercatori hanno compilato un dataset composto da 126.177 immagini provenienti da 308 diversi scriventi, utilizzando segmentazione per componenti connesse e filtraggio di qualità, concentrandosi anche sul sovracampionamento dei caratteri ucraini meno comuni. Denominato DiffusionPen, il modello incorpora un encoder di stile MobileNetV2 con triplet-loss insieme a una U-Net di diffusione latente condizionata da CANINE, riaddestrato su questo dataset senza modifiche all'architettura. La ricerca esamina il trasferimento di stile cross-dominio in tre scenari: trasferimento cross-lingue da campioni inglesi IAM, trasferimento zero-shot e fine-tuning, valutando le capacità di generalizzazione dei modelli esistenti oltre gli alfabeti latini. I risultati sono disponibili su arXiv con ID 2605.27487.
Fatti principali
- Dataset di 126.177 immagini di parole manoscritte ucraine da 308 scriventi
- Utilizza il modello DiffusionPen con encoder di stile MobileNetV2 triplet-loss e U-Net di diffusione latente condizionata da CANINE
- Testa il trasferimento di stile cross-dominio dal latino al cirillico in tre impostazioni
- Affronta la generazione di scrittura a mano non latina per l'ucraino, finora poco esplorata
- Pubblicato su arXiv con ID 2605.27487
Entità
Istituzioni
- arXiv