Framework multilingue rileva insulti rivendicati nel discorso LGBTQ+

ai-technology · 2026-05-14

È stato introdotto un nuovo approccio multistadio per identificare insulti rivendicati in contesti multilingue sui social media. Questo sistema distingue tra usi rivendicativi e non rivendicativi di insulti legati alla comunità LGBTQ+ in tweet scritti in inglese, spagnolo e italiano. Affronta problemi come dati limitati, squilibrio di classe e variazioni nel sentiment tra le lingue. Il framework impiega convalida incrociata per la selezione del modello, retro-traduzione per l'aumento semantico, undersampling dinamico a livello di epoca per l'apprendimento trasferito induttivo e modellazione linguistica mascherata per incorporare conoscenze specifiche del dominio. Sono stati valutati otto modelli di embedding multilingue, portando alla scelta di XLM-RoBERTa come modello di base basato sul punteggio F1 macro-medio. Inoltre, l'aumento dei dati tramite retro-traduzione con GPT-4o-mini ha effettivamente triplicato il dataset di addestramento.

Fatti principali

Il framework rileva insulti rivendicati nei social media multilingue
Si concentra su insulti legati alla comunità LGBTQ+ in inglese, spagnolo e italiano
Affronta scarsità di dati, squilibrio di classe, variazione cross-linguistica
Utilizza convalida incrociata, retro-traduzione, apprendimento trasferito, modellazione linguistica mascherata
XLM-RoBERTa selezionato come modello di base
La retro-traduzione con GPT-4o-mini ha triplicato il corpus di addestramento
Valutati otto modelli di embedding multilingue
Pubblicato su arXiv con ID 2605.13415

Framework multilingue rileva insulti rivendicati nel discorso LGBTQ+

Fatti principali

Entità

Istituzioni

Fonti