Benchmark RuleSafe-VL testa i modelli visione-linguaggio sulle regole di moderazione dei contenuti

ai-technology · 2026-05-11

Un nuovo benchmark chiamato RuleSafe-VL è stato sviluppato dai ricercatori per valutare il processo decisionale basato su regole nella moderazione dei contenuti visione-linguaggio. Questo benchmark si basa su linee guida di moderazione delle piattaforme pubblicamente accessibili e include 93 regole atomiche e 92 tipi di relazioni tra regole, risultando in 2.166 coppie immagine-testo sensibili al contesto. Mira a superare le carenze degli attuali benchmark di sicurezza multimodali, che spesso semplificano la moderazione al semplice abbinamento di etichette predefinite, senza valutare se i modelli applicano correttamente le regole politiche o dipendono da indicatori superficiali. RuleSafe-VL valuta l'efficacia con cui i modelli gestiscono regole politiche esplicite e condizioni sensibili al contesto per determinare se il contenuto dell'utente debba essere permesso, limitato o eliminato. Questa ricerca è disponibile su arXiv con identificatore 2605.07760.

Fatti principali

RuleSafe-VL è un benchmark per il ragionamento decisionale condizionato da regole nella moderazione dei contenuti visione-linguaggio.
Deriva dalle politiche di moderazione delle piattaforme pubblicamente disponibili.
Il benchmark formalizza 93 regole atomiche e 92 relazioni tipizzate tra regole.
Include 2.166 coppie immagine-testo sensibili al contesto.
Gli attuali benchmark di sicurezza multimodali riducono la moderazione all'abbinamento di etichette finali predefinite.
RuleSafe-VL verifica se i modelli applicano correttamente le regole politiche o si basano su indizi superficiali.
La ricerca è pubblicata su arXiv con identificatore 2605.07760.
Il benchmark valuta come i modelli gestiscono regole politiche esplicite e condizioni dipendenti dal contesto.

Benchmark RuleSafe-VL testa i modelli visione-linguaggio sulle regole di moderazione dei contenuti

Fatti principali

Entità

Istituzioni

Fonti