Cancellazione di genere nella traduzione automatica dall'inglese all'hindi
Un nuovo studio da arXiv (2605.27654) rivela che i sistemi di traduzione generativa spesso non riescono a preservare gli indicatori di genere quando traducono dall'inglese all'hindi. I ricercatori hanno costruito un benchmark di 37.345 istanze suddivise in dodici categorie e testato cinque sistemi, scoprendo che il genere viene spesso cancellato attraverso costruzioni ergative e onorifiche. Per affrontare questo problema, hanno introdotto due interventi a tempo di inferenza: il Source-Aware Reranker (SAR), che evita la sintassi neutralizzante il genere, e il Phenomenon-Aware Reranker (PAR), che preserva il genere tramite marcatura lessicale mirata anche quando la sintassi ergativa rimane. PAR ha migliorato l'accuratezza sui sottoinsiemi target per i modelli GPT-4o-mini e Sarvam. Il lavoro sottolinea la traduzione come tecnologia culturale in cui gli indicatori socialmente significativi devono essere resi fedelmente all'interno dei sistemi grammaticali.
Fatti principali
- Studio pubblicato su arXiv con ID 2605.27654
- Il benchmark contiene 37.345 istanze in dodici categorie
- Testati cinque sistemi di traduzione generativa
- La cancellazione di genere avviene attraverso costruzioni ergative e onorifiche
- L'intervento SAR preferisce candidati che evitano la sintassi neutralizzante il genere
- L'intervento PAR preserva il genere tramite marcatura lessicale
- PAR testato sui modelli GPT-4o-mini e Sarvam
- Traduzione intesa come tecnologia culturale
Entità
Istituzioni
- arXiv