MORPHOGEN: Benchmark Testa la Generazione Morfologica Consapevole del Genere nei Modelli Linguistici Multilingue
Un nuovo dataset di benchmark, MORPHOGEN, valuta la capacità dei modelli linguistici multilingue di grandi dimensioni di gestire il genere grammaticale e l'accordo morfologico in tre lingue linguisticamente diverse: hindi, arabo e francese. I ricercatori hanno sviluppato un dataset sintetico completo per valutare 15 modelli linguistici multilingue ampiamente utilizzati, che variano in dimensioni da 2B a 70B parametri. Il compito principale, GENFORM, sfida i modelli a trasformare una frase in prima persona nel genere opposto mantenendone significato e struttura. Sebbene i modelli linguistici multilingue eccellano in compiti come traduzione e risposta a domande, la loro gestione del genere grammaticale - che influenza la coniugazione verbale, i pronomi e le forme in prima persona - non è stata esaminata approfonditamente. Questo studio rivela carenze significative nelle capacità di generazione morfologica consapevole del genere. Il dataset è stato pubblicato su arXiv con identificatore 2604.18914v1 come tipo di annuncio incrociato.
Fatti principali
- MORPHOGEN è un dataset di benchmark su larga scala morfologicamente fondato per valutare la generazione consapevole del genere
- Testa tre lingue tipologicamente diverse con genere grammaticale: francese, arabo e hindi
- Il compito principale GENFORM richiede di riscrivere frasi in prima persona nel genere opposto preservandone il significato
- I ricercatori hanno valutato 15 modelli linguistici multilingue popolari con parametri da 2B a 70B
- Lo studio rivela lacune significative nelle capacità di generazione morfologica consapevole del genere dei modelli
- Il genere grammaticale influenza la coniugazione verbale, i pronomi e le costruzioni in prima persona nelle lingue morfologicamente ricche
- Il dataset è sintetico e di alta qualità, coprendo le tre lingue target
- La ricerca affronta aspetti poco esplorati delle prestazioni dei modelli linguistici multilingue oltre i compiti di alto livello
Entità
Luoghi
- France
- Arabic
- Hindi