Il benchmark FBHM rivela l'incapacità dei VLM di rilevare meme d'odio

other · 2026-06-01

I ricercatori hanno introdotto FBHM (Functionality Based Hateful Memes), un nuovo benchmark progettato per testare i modelli visione-linguaggio (VLM) nel rilevamento di meme d'odio. A differenza dei dataset esistenti che confondono i meccanismi retorici d'odio con le caratteristiche della comunità target, FBHM separa sistematicamente 25 distinte funzionalità retoriche in 10 comunità target, comprendendo 5.000 meme. La valutazione dei VLM all'avanguardia rivela un grave divario di generalizzazione: i modelli che ottengono risultati elevati sui dataset standard scendono a una precisione quasi casuale su FBHM, indicando una dipendenza da euristiche specifiche del dataset piuttosto che da un robusto ragionamento multimodale. Per affrontare questo problema, il team propone LSV (learnable steering vectors), una strategia a regime di dati ultra-basso che utilizza un intervento causale su appena 500 campioni di steering per colmare efficientemente il divario di prestazioni. Il lavoro è dettagliato nell'articolo arXiv 2605.31349.

Fatti principali

Introdotto il benchmark FBHM per il rilevamento di meme d'odio
25 funzionalità retoriche e 10 comunità target
5.000 meme nel benchmark
I VLM all'avanguardia mostrano prestazioni quasi casuali su FBHM
I modelli si basano su euristiche specifiche del dataset
Proposti LSV (learnable steering vectors) come soluzione
LSV utilizza appena 500 campioni di steering
Articolo disponibile su arXiv: 2605.31349

Il benchmark FBHM rivela l'incapacità dei VLM di rilevare meme d'odio

Fatti principali

Entità

Istituzioni

Fonti