Framework di Disentanglement dei Prompt Avversari per la Sicurezza degli LLM
È stato proposto un nuovo framework difensivo chiamato Disentanglement dei Prompt Avversari (APD) per proteggere i Grandi Modelli Linguistici (LLM) da prompt avversari che sfruttano ambiguità semantiche. Questi attacchi, tra cui jailbreaking e iniezione di prompt, bypassano i meccanismi di sicurezza e producono output dannosi. Il framework APD identifica e neutralizza proattivamente i componenti malevoli prima dell'elaborazione da parte dell'LLM. Integra tre innovazioni: decomposizione semantica basata su informazione mutua per isolare componenti avversari e benigni, classificazione dell'intento basata su grafi tramite analisi spettrale per rilevare pattern malevoli, e un classificatore leggero basato su transformer. Il framework mira a migliorare l'integrità e la disponibilità degli LLM in applicazioni critiche per la sicurezza.
Fatti principali
- Framework APD proposto per la sicurezza degli LLM
- Affronta prompt avversari che sfruttano ambiguità semantiche
- Gli attacchi includono jailbreaking e iniezione di prompt
- Identificazione e neutralizzazione proattiva dei componenti malevoli
- Tre innovazioni: decomposizione semantica, classificazione basata su grafi, classificatore transformer
- Metodo basato su informazione mutua garantisce indipendenza statistica
- Analisi spettrale utilizzata per la classificazione dell'intento
- Mirato ad applicazioni critiche per la sicurezza
Entità
—