ARTFEED — Contemporary Art Intelligence

Self-ReSET: Un Framework RL per il Recupero Sicuro del Ragionamento

ai-technology · 2026-05-12

Un nuovo framework di apprendimento per rinforzo chiamato Self-ReSET mira a dotare i Large Reasoning Models della capacità di auto-recupero da traiettorie di ragionamento non sicure. I Large Reasoning Models eccellono nell'autocorrezione in domini generali, ma spesso falliscono nel recuperare da percorsi di ragionamento non sicuri sotto attacchi avversari. I metodi di allineamento esistenti ottimizzano i modelli su dati esperti statici con tracce di riflessione o prefissi avversari, ma questi approcci faticano perché i dati di addestramento statici si discostano dalle tracce di ragionamento dinamiche e on-policy del modello. Self-ReSET utilizza puro apprendimento per rinforzo, riutilizzando le traiettorie di errore di sicurezza del modello stesso come stati iniziali per l'addestramento. Esperimenti su vari LRM e benchmark dimostrano l'efficacia del framework. Il paper è disponibile su arXiv con ID 2605.08936.

Fatti principali

  • Self-ReSET è un framework di puro apprendimento per rinforzo per Large Reasoning Models.
  • Affronta il problema delle traiettorie di ragionamento non sicure sotto attacchi avversari.
  • I metodi di allineamento esistenti utilizzano dati esperti statici, limitando la generalizzazione.
  • Self-ReSET riutilizza le traiettorie di errore di sicurezza del modello stesso come stati iniziali.
  • Gli esperimenti sono stati condotti su vari LRM e benchmark.
  • Il paper è pubblicato su arXiv con ID 2605.08936.
  • I Large Reasoning Models hanno capacità di autocorrezione in domini generali.
  • Il framework è progettato per dotare i modelli di capacità di recupero intrinseco.

Entità

Istituzioni

  • arXiv

Fonti