MULTITEXTEDIT: Un Benchmark Multilingue per l'Editing di Testo nelle Immagini
Un nuovo benchmark chiamato MULTITEXTEDIT è stato lanciato da ricercatori per valutare l'editing di testo nelle immagini in varie lingue. Questo benchmark presenta 3.600 esempi in 12 lingue diverse, 5 domini visivi e 7 tecniche di editing. Ogni esempio si basa su una base visiva condivisa e include un riferimento modificato da esseri umani insieme a maschere di regione per separare gli aspetti linguistici. Per affrontare imprecisioni a livello di scrittura, come diacritici assenti o ordine RTL errato, i creatori hanno ideato una metrica di fedeltà linguistica (LSF) utilizzando un protocollo LVM a due stadi, raggiungendo un kappa quadratico ponderato di 0,76 rispetto a parlanti nativi. Questa ricerca sottolinea il bias incentrato sull'inglese nei benchmark attuali e cerca di migliorare l'accuratezza semantica multilingue nella produzione di contenuti visivi.
Fatti principali
- MULTITEXTEDIT è un benchmark per l'editing di testo nelle immagini multilingue.
- Include 3.600 istanze in 12 lingue.
- Copre 5 domini visivi e 7 operazioni di editing.
- Ogni istanza ha un riferimento modificato da umani e maschere di regione.
- Introduce una metrica di fedeltà linguistica (LSF).
- LSF utilizza un protocollo LVM a due stadi.
- Raggiunge un kappa quadratico ponderato di 0,76 rispetto a parlanti nativi.
- Affronta il bias incentrato sull'inglese nei benchmark esistenti.
Entità
—