Nuovo Benchmark per l'Estrazione di Affermazioni Multimodali dai Social Media Introdotto
È stato sviluppato un nuovo benchmark per l'estrazione di affermazioni multimodali dai social media, affrontando la sfida della disinformazione che combina testi brevi con immagini come meme e screenshot. Questo lavoro, presentato in arXiv:2604.16311v1, rappresenta il primo benchmark di questo tipo, costituito da post con testo e immagini annotati con affermazioni gold-standard provenienti da fact-checker del mondo reale. I ricercatori hanno valutato i modelli linguistici multimodali (MLLM) all'avanguardia utilizzando un framework tripartito che valuta l'allineamento semantico, la fedeltà e la decontestualizzazione. Hanno riscontrato che i MLLM di base faticano a modellare l'intento retorico e i segnali contestuali. Per superare queste limitazioni, il team ha introdotto MICE, un framework consapevole dell'intento. Il Fact-Checking Automatico (AFC) dipende tradizionalmente dall'estrazione di affermazioni come primo passo, ma i metodi esistenti hanno largamente ignorato la natura multimodale della disinformazione contemporanea. I post sui social media spesso mescolano testo informale con elementi visivi, creando sfide distinte non riscontrate nell'estrazione solo testuale o in compiti come la descrizione delle immagini. Il tipo di annuncio è cross, indicando una rilevanza interdisciplinare. La ricerca evidenzia il divario negli approcci AFC attuali e propone una soluzione per migliorare l'accuratezza nel rilevare affermazioni da contenuti multimediali misti.
Fatti principali
- Il Fact-Checking Automatico (AFC) si basa sull'estrazione di affermazioni come primo passo
- I metodi esistenti trascurano in gran parte la natura multimodale della disinformazione odierna
- I post sui social media spesso combinano testo breve e informale con immagini come meme, screenshot e foto
- Ciò crea sfide che differiscono sia dall'estrazione di affermazioni solo testuali che da compiti multimodali ben studiati
- Il lavoro presenta il primo benchmark per l'estrazione di affermazioni multimodali dai social media
- Il benchmark è costituito da post contenenti testo e una o più immagini
- I post sono annotati con affermazioni gold-standard derivate da fact-checker del mondo reale
- I ricercatori hanno valutato i modelli linguistici multimodali (MLLM) all'avanguardia sotto un framework di valutazione tripartito
Entità
Istituzioni
- arXiv