Sicurezza Interna: Addestrare l'IA a Verificare Autonomamente la Sicurezza delle Risposte

ai-technology · 2026-05-12

Un nuovo framework chiamato Safety Internal (SInternal) propone di addestrare modelli di ragionamento di grandi dimensioni (LRM) esclusivamente su compiti di verifica della sicurezza per interiorizzare le specifiche di sicurezza. L'approccio affronta il limite dei metodi di allineamento attuali, che impongono solo una conformità esterna, lasciando i modelli vulnerabili a jailbreak avversari. Utilizzando traiettorie di ragionamento esperte per criticare le proprie risposte generate, i modelli imparano a verificare la sicurezza delle risposte, inducendo una forte generalizzazione. La ricerca, pubblicata su arXiv, dimostra che imparare a verificare migliora significativamente la robustezza contro prompt dannosi.

Fatti principali

arXiv:2605.08930v1
Proposto il framework Safety Internal (SInternal)
Addestra LRM su compiti di verifica della sicurezza
Utilizza traiettorie di ragionamento esperte per l'autocritica
Affronta la vulnerabilità ai jailbreak avversari
I metodi di allineamento attuali si basano sulla conformità esterna
L'analisi empirica mostra una mancanza di comprensione intrinseca della sicurezza
Imparare a verificare induce una forte generalizzazione per la sicurezza delle risposte

Sicurezza Interna: Addestrare l'IA a Verificare Autonomamente la Sicurezza delle Risposte

Fatti principali

Entità

Istituzioni

Fonti