ToxiAlert-Bench: Dataset Audio per il Rilevamento di Discorsi Tossici con Indizi Paralinguistici
Uno studio recente pubblicato su arXiv presenta ToxiAlert-Bench, un dataset audio completo volto a rilevare discorsi tossici, che include elementi paralinguistici come emozione, intonazione e velocità del parlato. Questo dataset contiene oltre 30.000 registrazioni audio classificate in sette categorie tossiche primarie e venti etichette tossiche dettagliate. In particolare, distingue le fonti di tossicità tra aspetti testuali e paralinguistici. Inoltre, i ricercatori introducono una rete neurale a doppia testa progettata con un approccio di addestramento multi-stadio specificamente per identificare discorsi tossici. Questa ricerca affronta le carenze degli attuali dataset e modelli incentrati sul testo che trascurano i fattori paralinguistici.
Fatti principali
- ToxiAlert-Bench è un dataset audio su larga scala per il rilevamento di discorsi tossici.
- Il dataset include oltre 30.000 clip audio.
- Annotato con sette categorie tossiche principali e venti etichette tossiche dettagliate.
- Distingue le fonti di tossicità: contenuto testuale vs. origini paralinguistiche.
- Propone una rete neurale a doppia testa con strategia di addestramento multi-stadio.
- Affronta la negligenza degli indizi paralinguistici negli approcci esistenti.
- Pubblicato su arXiv con identificatore 2605.15984.
- Si concentra sul rilevamento di discorsi tossici nella comunicazione online.
Entità
Istituzioni
- arXiv