Il dataset CHASM svela le pubblicità occulte sui social media cinesi
Un team di ricercatori ha presentato CHASM, il primo dataset progettato per valutare i modelli linguistici multimodali di grandi dimensioni (MLLM) nell'identificazione di pubblicità occulte sui social media. Queste pubblicità occulte si mascherano da post ordinari, sollevando dilemmi etici e legali. Il dataset è composto da 4.992 esempi di alta qualità, anonimizzati e curati manualmente, provenienti dalla piattaforma cinese Rednote, raccolti con rigorose misure di privacy e qualità. Include post che condividono esperienze di prodotto molto simili a pubblicità occulte, complicando gli sforzi di rilevamento. Le valutazioni condotte in condizioni zero-shot indicano che gli attuali MLLM incontrano difficoltà nell'identificare questi annunci, sottolineando una significativa carenza negli standard di moderazione dei social media.
Fatti principali
- CHASM è il primo dataset per valutare gli MLLM nel rilevamento di pubblicità occulte.
- Il dataset contiene 4.992 istanze dalla piattaforma social cinese Rednote.
- Le istanze sono anonimizzate e curate manualmente con rigorosi protocolli di privacy.
- Le pubblicità occulte si travestono da post regolari per ingannare i consumatori.
- Gli attuali benchmark per LLM nella moderazione dei social media trascurano le pubblicità occulte.
- Il dataset include post di condivisione di esperienze di prodotto che assomigliano a pubblicità occulte.
- I risultati mostrano che gli MLLM hanno prestazioni scarse in condizioni zero-shot.
- Le pubblicità occulte sollevano significative preoccupazioni etiche e legali.
Entità
Istituzioni
- arXiv
Luoghi
- China