Framework di Disentanglement dei Prompt Avversari per la Sicurezza degli LLM

ai-technology · 2026-05-28

È stato proposto un nuovo framework difensivo chiamato Disentanglement dei Prompt Avversari (APD) per proteggere i Grandi Modelli Linguistici (LLM) da prompt avversari che sfruttano ambiguità semantiche. Questi attacchi, tra cui jailbreaking e iniezione di prompt, bypassano i meccanismi di sicurezza e producono output dannosi. Il framework APD identifica e neutralizza proattivamente i componenti malevoli prima dell'elaborazione da parte dell'LLM. Integra tre innovazioni: decomposizione semantica basata su informazione mutua per isolare componenti avversari e benigni, classificazione dell'intento basata su grafi tramite analisi spettrale per rilevare pattern malevoli, e un classificatore leggero basato su transformer. Il framework mira a migliorare l'integrità e la disponibilità degli LLM in applicazioni critiche per la sicurezza.

Fatti principali

Framework APD proposto per la sicurezza degli LLM
Affronta prompt avversari che sfruttano ambiguità semantiche
Gli attacchi includono jailbreaking e iniezione di prompt
Identificazione e neutralizzazione proattiva dei componenti malevoli
Tre innovazioni: decomposizione semantica, classificazione basata su grafi, classificatore transformer
Metodo basato su informazione mutua garantisce indipendenza statistica
Analisi spettrale utilizzata per la classificazione dell'intento
Mirato ad applicazioni critiche per la sicurezza

Entità

—

Fonti

arXiv cs.AI — 2026-05-28