Attacco DPO Benigno a Few-Shot Jailbreak dei LLM

ai-technology · 2026-05-13

Una nuova tecnica di attacco sfrutta l'ottimizzazione diretta delle preferenze (DPO) per jailbreak dei grandi modelli linguistici (LLM) utilizzando solo 10 coppie di preferenze innocue, la scala di dati più piccola consentita dal servizio di fine-tuning di OpenAI. I ricercatori rivelano che DPO crea una modalità di fallimento più robusta e meno verificabile rispetto al fine-tuning supervisionato (SFT). Il metodo utilizza prompt innocui, designando una risposta tipicamente utile come preferita e un rifiuto come non preferita, rendendo i dati indistinguibili da richieste autentiche per minimizzare il rifiuto eccessivo. Questo attacco genuinamente innocuo presenta notevoli problemi di sicurezza per le pipeline di fine-tuning che si basano su obiettivi basati sulle preferenze.

Fatti principali

L'attacco utilizza solo 10 coppie di preferenze innocue
Scala di dati minima accettata dal servizio di fine-tuning di OpenAI
DPO introduce una modalità di fallimento più forte e più difficile da verificare rispetto a SFT
I dati sono indistinguibili da richieste legittime degli utenti
Prompt benigni con risposta utile come preferita e rifiuto come non preferita
Lavori precedenti hanno mostrato che SFT benigno può ridurre il comportamento di rifiuto
Le pipeline di fine-tuning implementate supportano sempre più obiettivi basati sulle preferenze
I rischi per la sicurezza del fine-tuning basato sulle preferenze rimangono meno compresi

Attacco DPO Benigno a Few-Shot Jailbreak dei LLM

Fatti principali

Entità

Istituzioni

Fonti