Jailbreak Avanzati Preservano le Capacità dei Modelli AI di Frontiera
Un nuovo studio su arXiv rivela che i jailbreak più sofisticati impongono una degradazione trascurabile delle prestazioni sui modelli linguistici avanzati. I ricercatori hanno valutato 28 jailbreak su cinque benchmark sui modelli Claude da Haiku 4.5 a Opus 4.6. Haiku 4.5 ha perso in media il 33,1% delle prestazioni di benchmark quando jailbroken, mentre Opus 4.6 con massimo sforzo di pensiero ha perso solo il 7,7%. I compiti che richiedono ragionamento hanno mostrato una maggiore degradazione rispetto ai compiti di richiamo di conoscenze. Il Boundary Point Jailbreaking ha raggiunto un'evasione quasi perfetta del classificatore con una degradazione quasi nulla. I risultati sfidano la nozione di una 'tassa di jailbreak' universale e suggeriscono che, all'aumentare della capacità del modello, la tassa diminuisce.
Fatti principali
- Studio su arXiv: 2605.00267
- 28 jailbreak valutati su cinque benchmark
- Modelli Claude testati: da Haiku 4.5 a Opus 4.6
- Haiku 4.5 ha perso il 33,1% delle prestazioni di benchmark quando jailbroken
- Opus 4.6 ha perso solo il 7,7% con massimo sforzo di pensiero
- I compiti che richiedono ragionamento si sono degradati più di quelli di richiamo di conoscenze
- Boundary Point Jailbreaking ha raggiunto un'evasione quasi perfetta con degradazione quasi nulla
- La tassa di jailbreak scala inversamente con la capacità del modello
Entità
Istituzioni
- arXiv