Trappola di Sicurezza Selettiva: L'Allineamento degli LLM Fallisce i Gruppi Vulnerabili
Uno studio recente pubblicato su arXiv indica che l'allineamento di sicurezza dei modelli linguistici di grandi dimensioni (LLM) differisce significativamente tra vari gruppi demografici. I ricercatori hanno sviluppato MiJaBench, un benchmark avversario bilingue in inglese e portoghese, composto da 43.961 prompt di jailbreak mirati a 16 gruppi minoritari. Testando 14 LLM leader, sono state ottenute 615.454 coppie prompt-risposta (MiJaBench-Align), rivelando che i tassi di difesa possono differire fino al 42% anche all'interno dello stesso modello. Il termine 'Trappola di Sicurezza Selettiva' evidenzia come alcune popolazioni ricevano difese robuste, mentre le comunità emarginate rimangono esposte a minacce simili. Gli autori sostengono che le attuali valutazioni di sicurezza favoriscono un'illusoria sensazione di protezione universale raggruppando i danni in ampie categorie, come 'Odio Identitario'.
Fatti principali
- Lo studio espone la Trappola di Sicurezza Selettiva nell'allineamento degli LLM
- Il benchmark MiJaBench contiene 43.961 prompt di jailbreak bilingue
- Copre 16 gruppi minoritari in inglese e portoghese
- Valutati 14 LLM all'avanguardia
- Curate 615.454 coppie prompt-risposta (MiJaBench-Align)
- I tassi di difesa variano fino al 42% all'interno dello stesso modello
- Le attuali valutazioni di sicurezza aggregano i danni sotto categorie generiche
- Articolo disponibile su arXiv con ID 2601.04389
Entità
Istituzioni
- arXiv