Nuovo Rivelatore CPD Identifica Prompt Avversari Fluenti nei LLM tramite Variazioni di Entropia

ai-technology · 2026-05-20

Un team di ricercatori ha lanciato CPD Online, un nuovo strumento progettato per individuare suffissi avversari basati su ottimizzazione nei modelli linguistici di grandi dimensioni (LLM). A differenza dei metodi più vecchi che si basano sulla perplessità statica o a finestra, CPD tratta il rilevamento come un problema di punto di cambiamento online esaminando flussi di entropia token-level del token successivo. Utilizza il prompt di sistema del LLM per creare una solida baseline, normalizza le entropie dei token utente e applica una statistica CUSUM unilaterale. CPD è adattabile, non necessita di addestramento preliminare e funziona in tempo reale per rilevare suffissi avversari. Nei test con 1.012 attacchi a suffisso basati su ottimizzazione e lo stesso numero di prompt benigni, CPD ha superato il metodo tradizionale di perplessità a finestra, raggiungendo un AUROC di 0,88 su LLaMA-2-7B.

Fatti principali

CPD Online rileva suffissi avversari fluenti basati su ottimizzazione nei LLM.
Il rilevamento è formulato come un problema di punto di cambiamento online sull'entropia token-level del token successivo.
Il rivelatore utilizza il prompt di sistema del LLM per stimare una baseline robusta.
Applica una statistica CUSUM unilaterale sulle entropie standardizzate dei token utente.
CPD è agnostico rispetto al modello, senza addestramento e funziona online.
Il benchmark include 1.012 attacchi (GCG, AutoDAN, AdvPrompter, BEAST, AutoDAN-HGA) e 1.012 prompt benigni.
CPD migliora l'F1 rispetto alle baseline di perplessità a finestra su tutti e sei i modelli testati.
Su LLaMA-2-7B a k=0, CPD raggiunge un AUROC di 0,88.

Entità

—

Fonti

arXiv cs.AI — 2026-05-20