ARTFEED — Contemporary Art Intelligence

Sicurezza Interna: Addestrare l'IA a Verificare Autonomamente la Sicurezza delle Risposte

ai-technology · 2026-05-12

Un nuovo framework chiamato Safety Internal (SInternal) propone di addestrare modelli di ragionamento di grandi dimensioni (LRM) esclusivamente su compiti di verifica della sicurezza per interiorizzare le specifiche di sicurezza. L'approccio affronta il limite dei metodi di allineamento attuali, che impongono solo una conformità esterna, lasciando i modelli vulnerabili a jailbreak avversari. Utilizzando traiettorie di ragionamento esperte per criticare le proprie risposte generate, i modelli imparano a verificare la sicurezza delle risposte, inducendo una forte generalizzazione. La ricerca, pubblicata su arXiv, dimostra che imparare a verificare migliora significativamente la robustezza contro prompt dannosi.

Fatti principali

  • arXiv:2605.08930v1
  • Proposto il framework Safety Internal (SInternal)
  • Addestra LRM su compiti di verifica della sicurezza
  • Utilizza traiettorie di ragionamento esperte per l'autocritica
  • Affronta la vulnerabilità ai jailbreak avversari
  • I metodi di allineamento attuali si basano sulla conformità esterna
  • L'analisi empirica mostra una mancanza di comprensione intrinseca della sicurezza
  • Imparare a verificare induce una forte generalizzazione per la sicurezza delle risposte

Entità

Istituzioni

  • arXiv

Fonti