ARTFEED — Contemporary Art Intelligence

Framework di Disentanglement dei Prompt Avversari per la Sicurezza degli LLM

ai-technology · 2026-05-28

È stato proposto un nuovo framework difensivo chiamato Disentanglement dei Prompt Avversari (APD) per proteggere i Grandi Modelli Linguistici (LLM) da prompt avversari che sfruttano ambiguità semantiche. Questi attacchi, tra cui jailbreaking e iniezione di prompt, bypassano i meccanismi di sicurezza e producono output dannosi. Il framework APD identifica e neutralizza proattivamente i componenti malevoli prima dell'elaborazione da parte dell'LLM. Integra tre innovazioni: decomposizione semantica basata su informazione mutua per isolare componenti avversari e benigni, classificazione dell'intento basata su grafi tramite analisi spettrale per rilevare pattern malevoli, e un classificatore leggero basato su transformer. Il framework mira a migliorare l'integrità e la disponibilità degli LLM in applicazioni critiche per la sicurezza.

Fatti principali

  • Framework APD proposto per la sicurezza degli LLM
  • Affronta prompt avversari che sfruttano ambiguità semantiche
  • Gli attacchi includono jailbreaking e iniezione di prompt
  • Identificazione e neutralizzazione proattiva dei componenti malevoli
  • Tre innovazioni: decomposizione semantica, classificazione basata su grafi, classificatore transformer
  • Metodo basato su informazione mutua garantisce indipendenza statistica
  • Analisi spettrale utilizzata per la classificazione dell'intento
  • Mirato ad applicazioni critiche per la sicurezza

Entità

Fonti