Pipeline AI trascrive manoscritti legali medievali inglesi
Una nuova pipeline AI open-source raggiunge il 79% di accuratezza a livello di parola nella trascrizione di manoscritti legali medievali inglesi scritti in latino abbreviato. Il dataset comprende 4.029 righe provenienti da 193 casi penali e civili. Il sistema utilizza R-Blla per la segmentazione delle righe e CNN+LSTM con decodifica CTC per il riconoscimento della scrittura a mano. Una semplice post-elaborazione aumenta significativamente l'accuratezza, nonostante un set di addestramento ridotto e la sfida di espandere le abbreviazioni. Questo progetto mira a democratizzare l'accesso ai registri del sistema legale anglo-americano, attualmente leggibili solo da poche decine di studiosi in tutto il mondo.
Fatti principali
- Dataset di 4.029 righe da 193 casi medievali
- Utilizza R-Blla e CNN+LSTM con decodifica CTC
- Raggiunto il 79% di accuratezza a livello di parola
- La post-elaborazione aumenta significativamente l'accuratezza
- Manoscritti in latino medievale abbreviato
- Solo poche decine di studiosi possono leggerli
- Pipeline open-source end-to-end
- Registri dei primi secoli del sistema legale anglo-americano
Entità
—