ARTFEED — Contemporary Art Intelligence

Nuova ricerca rivela vulnerabilità nei protocolli di sicurezza dei modelli di ragionamento su larga scala

ai-technology · 2026-04-20

Uno studio pubblicato su arXiv con identificatore 2604.15725 introduce un nuovo attacco di jailbreak mirato ai Large Reasoning Models (LRM), modelli sempre più utilizzati in settori critici come la sanità e l'istruzione. A differenza degli attacchi precedenti che si concentravano sugli output finali, questo metodo inietta contenuti dannosi nei passaggi di ragionamento mantenendo inalterate le risposte, ponendo sfide uniche a causa delle potenziali alterazioni delle risposte e della diversità delle domande in input. Per superare queste difficoltà, i ricercatori hanno sviluppato il Psychology-based Reasoning-targeted Jailbreak Attack (PRJA) Framework, che combina trigger semantici e framing psicologico per eludere gli allineamenti di sicurezza. Il lavoro evidenzia un significativo divario nella protezione dei processi di ragionamento, poiché gli LRM generano catene passo-passo che potrebbero essere manipolate senza essere rilevate. Questa vulnerabilità solleva preoccupazioni riguardo all'implementazione di questi modelli in ambiti ad alto rischio dove la fiducia nella logica interna è essenziale. Il preprint è stato annunciato come abstract interdisciplinare, sottolineando la necessità di misure di sicurezza rafforzate nei sistemi di intelligenza artificiale.

Fatti principali

  • I Large Reasoning Models (LRM) sono implementati in ambiti ad alto rischio come la sanità e l'istruzione
  • Gli studi precedenti sugli attacchi di jailbreak si sono concentrati sulla sicurezza delle risposte finali
  • L'attacco inietta contenuti dannosi nei passaggi di ragionamento preservando le risposte inalterate
  • Due sfide chiave includono la manipolazione delle istruzioni di input che alterano le risposte e le diverse domande di input che eludono la sicurezza
  • Il Psychology-based Reasoning-targeted Jailbreak Attack (PRJA) Framework affronta queste sfide
  • Lo studio identifica un problema nuovo nei meccanismi di allineamento della sicurezza degli LRM
  • La ricerca è pubblicata su arXiv con identificatore 2604.15725
  • Il tipo di annuncio è interdisciplinare

Entità

Istituzioni

  • arXiv

Fonti