Framework multilingue rileva insulti rivendicati nel discorso LGBTQ+
È stato introdotto un nuovo approccio multistadio per identificare insulti rivendicati in contesti multilingue sui social media. Questo sistema distingue tra usi rivendicativi e non rivendicativi di insulti legati alla comunità LGBTQ+ in tweet scritti in inglese, spagnolo e italiano. Affronta problemi come dati limitati, squilibrio di classe e variazioni nel sentiment tra le lingue. Il framework impiega convalida incrociata per la selezione del modello, retro-traduzione per l'aumento semantico, undersampling dinamico a livello di epoca per l'apprendimento trasferito induttivo e modellazione linguistica mascherata per incorporare conoscenze specifiche del dominio. Sono stati valutati otto modelli di embedding multilingue, portando alla scelta di XLM-RoBERTa come modello di base basato sul punteggio F1 macro-medio. Inoltre, l'aumento dei dati tramite retro-traduzione con GPT-4o-mini ha effettivamente triplicato il dataset di addestramento.
Fatti principali
- Il framework rileva insulti rivendicati nei social media multilingue
- Si concentra su insulti legati alla comunità LGBTQ+ in inglese, spagnolo e italiano
- Affronta scarsità di dati, squilibrio di classe, variazione cross-linguistica
- Utilizza convalida incrociata, retro-traduzione, apprendimento trasferito, modellazione linguistica mascherata
- XLM-RoBERTa selezionato come modello di base
- La retro-traduzione con GPT-4o-mini ha triplicato il corpus di addestramento
- Valutati otto modelli di embedding multilingue
- Pubblicato su arXiv con ID 2605.13415
Entità
Istituzioni
- arXiv