Nuovo Rivelatore CPD Identifica Prompt Avversari Fluenti nei LLM tramite Variazioni di Entropia
Un team di ricercatori ha lanciato CPD Online, un nuovo strumento progettato per individuare suffissi avversari basati su ottimizzazione nei modelli linguistici di grandi dimensioni (LLM). A differenza dei metodi più vecchi che si basano sulla perplessità statica o a finestra, CPD tratta il rilevamento come un problema di punto di cambiamento online esaminando flussi di entropia token-level del token successivo. Utilizza il prompt di sistema del LLM per creare una solida baseline, normalizza le entropie dei token utente e applica una statistica CUSUM unilaterale. CPD è adattabile, non necessita di addestramento preliminare e funziona in tempo reale per rilevare suffissi avversari. Nei test con 1.012 attacchi a suffisso basati su ottimizzazione e lo stesso numero di prompt benigni, CPD ha superato il metodo tradizionale di perplessità a finestra, raggiungendo un AUROC di 0,88 su LLaMA-2-7B.
Fatti principali
- CPD Online rileva suffissi avversari fluenti basati su ottimizzazione nei LLM.
- Il rilevamento è formulato come un problema di punto di cambiamento online sull'entropia token-level del token successivo.
- Il rivelatore utilizza il prompt di sistema del LLM per stimare una baseline robusta.
- Applica una statistica CUSUM unilaterale sulle entropie standardizzate dei token utente.
- CPD è agnostico rispetto al modello, senza addestramento e funziona online.
- Il benchmark include 1.012 attacchi (GCG, AutoDAN, AdvPrompter, BEAST, AutoDAN-HGA) e 1.012 prompt benigni.
- CPD migliora l'F1 rispetto alle baseline di perplessità a finestra su tutti e sei i modelli testati.
- Su LLaMA-2-7B a k=0, CPD raggiunge un AUROC di 0,88.
Entità
—