Benchmark RuleSafe-VL testa i modelli visione-linguaggio sulle regole di moderazione dei contenuti
Un nuovo benchmark chiamato RuleSafe-VL è stato sviluppato dai ricercatori per valutare il processo decisionale basato su regole nella moderazione dei contenuti visione-linguaggio. Questo benchmark si basa su linee guida di moderazione delle piattaforme pubblicamente accessibili e include 93 regole atomiche e 92 tipi di relazioni tra regole, risultando in 2.166 coppie immagine-testo sensibili al contesto. Mira a superare le carenze degli attuali benchmark di sicurezza multimodali, che spesso semplificano la moderazione al semplice abbinamento di etichette predefinite, senza valutare se i modelli applicano correttamente le regole politiche o dipendono da indicatori superficiali. RuleSafe-VL valuta l'efficacia con cui i modelli gestiscono regole politiche esplicite e condizioni sensibili al contesto per determinare se il contenuto dell'utente debba essere permesso, limitato o eliminato. Questa ricerca è disponibile su arXiv con identificatore 2605.07760.
Fatti principali
- RuleSafe-VL è un benchmark per il ragionamento decisionale condizionato da regole nella moderazione dei contenuti visione-linguaggio.
- Deriva dalle politiche di moderazione delle piattaforme pubblicamente disponibili.
- Il benchmark formalizza 93 regole atomiche e 92 relazioni tipizzate tra regole.
- Include 2.166 coppie immagine-testo sensibili al contesto.
- Gli attuali benchmark di sicurezza multimodali riducono la moderazione all'abbinamento di etichette finali predefinite.
- RuleSafe-VL verifica se i modelli applicano correttamente le regole politiche o si basano su indizi superficiali.
- La ricerca è pubblicata su arXiv con identificatore 2605.07760.
- Il benchmark valuta come i modelli gestiscono regole politiche esplicite e condizioni dipendenti dal contesto.
Entità
Istituzioni
- arXiv