ARTFEED — Contemporary Art Intelligence

Framework multilingue rileva insulti rivendicati nel discorso LGBTQ+

ai-technology · 2026-05-14

È stato introdotto un nuovo approccio multistadio per identificare insulti rivendicati in contesti multilingue sui social media. Questo sistema distingue tra usi rivendicativi e non rivendicativi di insulti legati alla comunità LGBTQ+ in tweet scritti in inglese, spagnolo e italiano. Affronta problemi come dati limitati, squilibrio di classe e variazioni nel sentiment tra le lingue. Il framework impiega convalida incrociata per la selezione del modello, retro-traduzione per l'aumento semantico, undersampling dinamico a livello di epoca per l'apprendimento trasferito induttivo e modellazione linguistica mascherata per incorporare conoscenze specifiche del dominio. Sono stati valutati otto modelli di embedding multilingue, portando alla scelta di XLM-RoBERTa come modello di base basato sul punteggio F1 macro-medio. Inoltre, l'aumento dei dati tramite retro-traduzione con GPT-4o-mini ha effettivamente triplicato il dataset di addestramento.

Fatti principali

  • Il framework rileva insulti rivendicati nei social media multilingue
  • Si concentra su insulti legati alla comunità LGBTQ+ in inglese, spagnolo e italiano
  • Affronta scarsità di dati, squilibrio di classe, variazione cross-linguistica
  • Utilizza convalida incrociata, retro-traduzione, apprendimento trasferito, modellazione linguistica mascherata
  • XLM-RoBERTa selezionato come modello di base
  • La retro-traduzione con GPT-4o-mini ha triplicato il corpus di addestramento
  • Valutati otto modelli di embedding multilingue
  • Pubblicato su arXiv con ID 2605.13415

Entità

Istituzioni

  • arXiv

Fonti