ARTFEED — Contemporary Art Intelligence

AE-CoT: Jailbreak Evolutivo Adattivo per LLM

ai-technology · 2026-05-26

Un nuovo articolo di ricerca su arXiv (2605.24497) propone AE-CoT, un framework di jailbreak adattivo basato su catena di pensiero evolutiva, mirato ai Large Reasoning Models (LRM). Il metodo riscrive obiettivi dannosi in prompt lievi utilizzando il role-play dell'insegnante, li scompone in frammenti di ragionamento coerenti e conduce una ricerca evolutiva multi-generazionale per espandere la diversità dei candidati. Ciò affronta la vulnerabilità dei meccanismi espliciti di CoT negli LRM, che i template di jailbreak statici non riescono a sfruttare efficacemente a causa della limitata diversità e adattabilità.

Fatti principali

  • arXiv:2605.24497
  • Framework AE-CoT
  • mirato ai Large Reasoning Models (LRM)
  • utilizza jailbreak adattivo basato su catena di pensiero evolutiva
  • riscrive obiettivi dannosi in prompt lievi con role-play dell'insegnante
  • scompone i prompt in frammenti di ragionamento
  • ricerca evolutiva multi-generazionale
  • affronta i limiti dei template di jailbreak CoT statici

Entità

Istituzioni

  • arXiv

Fonti