Framework di Auto-Gioco Avversariale per l'Allineamento della Sicurezza degli LLM

ai-technology · 2026-05-06

Un recente studio pubblicato su arXiv introduce il Persona-Invariant Alignment (PIA), un framework avversariale di auto-gioco progettato per proteggere i grandi modelli linguistici dalle minacce di jailbreak guidate dalla persona. Il meccanismo di attacco incorpora l'evoluzione della linea di discendenza della persona (PLE), mentre la strategia di difesa utilizza l'apprendimento di coerenza invariante della persona (PICL). Basato sull'ipotesi di separazione strutturale, PICL applica un vincolo unilaterale di divergenza KL per dissociare le scelte di sicurezza dai contesti di persona, garantendo risposte sicure attraverso vari prompt di persona. Questa ricerca, condotta da un team di ricercatori, evidenzia la suscettibilità dei metodi esistenti di allineamento della sicurezza a nuovi attacchi focalizzati sulla persona.

Fatti principali

Il paper arXiv 2605.01899 propone il Persona-Invariant Alignment (PIA)
PIA utilizza l'auto-gioco avversariale con l'evoluzione della linea di discendenza della persona (PLE) e l'apprendimento di coerenza invariante della persona (PICL)
PICL si basa sull'ipotesi di separazione strutturale
Utilizza un vincolo unilaterale di divergenza KL per disaccoppiare la sicurezza dalla persona
Affronta gli attacchi di jailbreak basati sulla persona sugli LLM
Pubblicato su arXiv come nuovo annuncio

Framework di Auto-Gioco Avversariale per l'Allineamento della Sicurezza degli LLM

Fatti principali

Entità

Istituzioni

Fonti