ARTFEED — Contemporary Art Intelligence

Trappola di Sicurezza Selettiva: L'Allineamento degli LLM Fallisce i Gruppi Vulnerabili

ai-technology · 2026-04-30

Uno studio recente pubblicato su arXiv indica che l'allineamento di sicurezza dei modelli linguistici di grandi dimensioni (LLM) differisce significativamente tra vari gruppi demografici. I ricercatori hanno sviluppato MiJaBench, un benchmark avversario bilingue in inglese e portoghese, composto da 43.961 prompt di jailbreak mirati a 16 gruppi minoritari. Testando 14 LLM leader, sono state ottenute 615.454 coppie prompt-risposta (MiJaBench-Align), rivelando che i tassi di difesa possono differire fino al 42% anche all'interno dello stesso modello. Il termine 'Trappola di Sicurezza Selettiva' evidenzia come alcune popolazioni ricevano difese robuste, mentre le comunità emarginate rimangono esposte a minacce simili. Gli autori sostengono che le attuali valutazioni di sicurezza favoriscono un'illusoria sensazione di protezione universale raggruppando i danni in ampie categorie, come 'Odio Identitario'.

Fatti principali

  • Lo studio espone la Trappola di Sicurezza Selettiva nell'allineamento degli LLM
  • Il benchmark MiJaBench contiene 43.961 prompt di jailbreak bilingue
  • Copre 16 gruppi minoritari in inglese e portoghese
  • Valutati 14 LLM all'avanguardia
  • Curate 615.454 coppie prompt-risposta (MiJaBench-Align)
  • I tassi di difesa variano fino al 42% all'interno dello stesso modello
  • Le attuali valutazioni di sicurezza aggregano i danni sotto categorie generiche
  • Articolo disponibile su arXiv con ID 2601.04389

Entità

Istituzioni

  • arXiv

Fonti