FlipAttack: Jailbreak per LLM Black-Box con Tasso di Successo del 98% su GPT-4o
I ricercatori propongono FlipAttack, un semplice metodo di jailbreak che sfrutta la debolezza di comprensione da sinistra a destra dei LLM autoregressivi. Aggiungendo rumore al lato sinistro dei prompt dannosi, quindi capovolgendo il testo in quattro modalità, l'attacco raggiunge circa il 98% di successo su GPT-4o e altri modelli con una singola query. Il metodo è universale, furtivo e non richiede accesso al modello.
Fatti principali
- FlipAttack prende di mira LLM black-box
- Sfrutta la comprensione autoregressiva da sinistra a destra del testo
- Utilizza rumore sul lato sinistro e quattro modalità di capovolgimento
- Raggiunge circa il 98% di tasso di successo su GPT-4o
- Richiede una sola query
- Testato su 8 LLM
- Il metodo è universale e furtivo
- Pubblicato su arXiv: 2410.02832
Entità
Istituzioni
- arXiv