Jailbreak Avanzati Preservano le Capacità dei Modelli AI di Frontiera

ai-technology · 2026-05-04

Un nuovo studio su arXiv rivela che i jailbreak più sofisticati impongono una degradazione trascurabile delle prestazioni sui modelli linguistici avanzati. I ricercatori hanno valutato 28 jailbreak su cinque benchmark sui modelli Claude da Haiku 4.5 a Opus 4.6. Haiku 4.5 ha perso in media il 33,1% delle prestazioni di benchmark quando jailbroken, mentre Opus 4.6 con massimo sforzo di pensiero ha perso solo il 7,7%. I compiti che richiedono ragionamento hanno mostrato una maggiore degradazione rispetto ai compiti di richiamo di conoscenze. Il Boundary Point Jailbreaking ha raggiunto un'evasione quasi perfetta del classificatore con una degradazione quasi nulla. I risultati sfidano la nozione di una 'tassa di jailbreak' universale e suggeriscono che, all'aumentare della capacità del modello, la tassa diminuisce.

Fatti principali

Studio su arXiv: 2605.00267
28 jailbreak valutati su cinque benchmark
Modelli Claude testati: da Haiku 4.5 a Opus 4.6
Haiku 4.5 ha perso il 33,1% delle prestazioni di benchmark quando jailbroken
Opus 4.6 ha perso solo il 7,7% con massimo sforzo di pensiero
I compiti che richiedono ragionamento si sono degradati più di quelli di richiamo di conoscenze
Boundary Point Jailbreaking ha raggiunto un'evasione quasi perfetta con degradazione quasi nulla
La tassa di jailbreak scala inversamente con la capacità del modello

Jailbreak Avanzati Preservano le Capacità dei Modelli AI di Frontiera

Fatti principali

Entità

Istituzioni

Fonti