Il dataset CHASM svela le pubblicità occulte sui social media cinesi

ai-technology · 2026-04-24

Un team di ricercatori ha presentato CHASM, il primo dataset progettato per valutare i modelli linguistici multimodali di grandi dimensioni (MLLM) nell'identificazione di pubblicità occulte sui social media. Queste pubblicità occulte si mascherano da post ordinari, sollevando dilemmi etici e legali. Il dataset è composto da 4.992 esempi di alta qualità, anonimizzati e curati manualmente, provenienti dalla piattaforma cinese Rednote, raccolti con rigorose misure di privacy e qualità. Include post che condividono esperienze di prodotto molto simili a pubblicità occulte, complicando gli sforzi di rilevamento. Le valutazioni condotte in condizioni zero-shot indicano che gli attuali MLLM incontrano difficoltà nell'identificare questi annunci, sottolineando una significativa carenza negli standard di moderazione dei social media.

Fatti principali

CHASM è il primo dataset per valutare gli MLLM nel rilevamento di pubblicità occulte.
Il dataset contiene 4.992 istanze dalla piattaforma social cinese Rednote.
Le istanze sono anonimizzate e curate manualmente con rigorosi protocolli di privacy.
Le pubblicità occulte si travestono da post regolari per ingannare i consumatori.
Gli attuali benchmark per LLM nella moderazione dei social media trascurano le pubblicità occulte.
Il dataset include post di condivisione di esperienze di prodotto che assomigliano a pubblicità occulte.
I risultati mostrano che gli MLLM hanno prestazioni scarse in condizioni zero-shot.
Le pubblicità occulte sollevano significative preoccupazioni etiche e legali.

Entità

Istituzioni

arXiv

Luoghi

China

Fonti

arXiv cs.AI — 2026-04-23