FlipAttack: Jailbreak per LLM Black-Box con Tasso di Successo del 98% su GPT-4o

ai-technology · 2026-05-18

I ricercatori propongono FlipAttack, un semplice metodo di jailbreak che sfrutta la debolezza di comprensione da sinistra a destra dei LLM autoregressivi. Aggiungendo rumore al lato sinistro dei prompt dannosi, quindi capovolgendo il testo in quattro modalità, l'attacco raggiunge circa il 98% di successo su GPT-4o e altri modelli con una singola query. Il metodo è universale, furtivo e non richiede accesso al modello.

Fatti principali

FlipAttack prende di mira LLM black-box
Sfrutta la comprensione autoregressiva da sinistra a destra del testo
Utilizza rumore sul lato sinistro e quattro modalità di capovolgimento
Raggiunge circa il 98% di tasso di successo su GPT-4o
Richiede una sola query
Testato su 8 LLM
Il metodo è universale e furtivo
Pubblicato su arXiv: 2410.02832

FlipAttack: Jailbreak per LLM Black-Box con Tasso di Successo del 98% su GPT-4o

Fatti principali

Entità

Istituzioni

Fonti