ARTFEED — Contemporary Art Intelligence

FlipAttack: Jailbreak per LLM Black-Box con Tasso di Successo del 98% su GPT-4o

ai-technology · 2026-05-18

I ricercatori propongono FlipAttack, un semplice metodo di jailbreak che sfrutta la debolezza di comprensione da sinistra a destra dei LLM autoregressivi. Aggiungendo rumore al lato sinistro dei prompt dannosi, quindi capovolgendo il testo in quattro modalità, l'attacco raggiunge circa il 98% di successo su GPT-4o e altri modelli con una singola query. Il metodo è universale, furtivo e non richiede accesso al modello.

Fatti principali

  • FlipAttack prende di mira LLM black-box
  • Sfrutta la comprensione autoregressiva da sinistra a destra del testo
  • Utilizza rumore sul lato sinistro e quattro modalità di capovolgimento
  • Raggiunge circa il 98% di tasso di successo su GPT-4o
  • Richiede una sola query
  • Testato su 8 LLM
  • Il metodo è universale e furtivo
  • Pubblicato su arXiv: 2410.02832

Entità

Istituzioni

  • arXiv

Fonti