Trappola di Sicurezza Selettiva: L'Allineamento degli LLM Fallisce i Gruppi Vulnerabili

ai-technology · 2026-04-30

Uno studio recente pubblicato su arXiv indica che l'allineamento di sicurezza dei modelli linguistici di grandi dimensioni (LLM) differisce significativamente tra vari gruppi demografici. I ricercatori hanno sviluppato MiJaBench, un benchmark avversario bilingue in inglese e portoghese, composto da 43.961 prompt di jailbreak mirati a 16 gruppi minoritari. Testando 14 LLM leader, sono state ottenute 615.454 coppie prompt-risposta (MiJaBench-Align), rivelando che i tassi di difesa possono differire fino al 42% anche all'interno dello stesso modello. Il termine 'Trappola di Sicurezza Selettiva' evidenzia come alcune popolazioni ricevano difese robuste, mentre le comunità emarginate rimangono esposte a minacce simili. Gli autori sostengono che le attuali valutazioni di sicurezza favoriscono un'illusoria sensazione di protezione universale raggruppando i danni in ampie categorie, come 'Odio Identitario'.

Fatti principali

Lo studio espone la Trappola di Sicurezza Selettiva nell'allineamento degli LLM
Il benchmark MiJaBench contiene 43.961 prompt di jailbreak bilingue
Copre 16 gruppi minoritari in inglese e portoghese
Valutati 14 LLM all'avanguardia
Curate 615.454 coppie prompt-risposta (MiJaBench-Align)
I tassi di difesa variano fino al 42% all'interno dello stesso modello
Le attuali valutazioni di sicurezza aggregano i danni sotto categorie generiche
Articolo disponibile su arXiv con ID 2601.04389

Trappola di Sicurezza Selettiva: L'Allineamento degli LLM Fallisce i Gruppi Vulnerabili

Fatti principali

Entità

Istituzioni

Fonti