Self-ReSET: Un Framework RL per il Recupero Sicuro del Ragionamento

ai-technology · 2026-05-12

Un nuovo framework di apprendimento per rinforzo chiamato Self-ReSET mira a dotare i Large Reasoning Models della capacità di auto-recupero da traiettorie di ragionamento non sicure. I Large Reasoning Models eccellono nell'autocorrezione in domini generali, ma spesso falliscono nel recuperare da percorsi di ragionamento non sicuri sotto attacchi avversari. I metodi di allineamento esistenti ottimizzano i modelli su dati esperti statici con tracce di riflessione o prefissi avversari, ma questi approcci faticano perché i dati di addestramento statici si discostano dalle tracce di ragionamento dinamiche e on-policy del modello. Self-ReSET utilizza puro apprendimento per rinforzo, riutilizzando le traiettorie di errore di sicurezza del modello stesso come stati iniziali per l'addestramento. Esperimenti su vari LRM e benchmark dimostrano l'efficacia del framework. Il paper è disponibile su arXiv con ID 2605.08936.

Fatti principali

Self-ReSET è un framework di puro apprendimento per rinforzo per Large Reasoning Models.
Affronta il problema delle traiettorie di ragionamento non sicure sotto attacchi avversari.
I metodi di allineamento esistenti utilizzano dati esperti statici, limitando la generalizzazione.
Self-ReSET riutilizza le traiettorie di errore di sicurezza del modello stesso come stati iniziali.
Gli esperimenti sono stati condotti su vari LRM e benchmark.
Il paper è pubblicato su arXiv con ID 2605.08936.
I Large Reasoning Models hanno capacità di autocorrezione in domini generali.
Il framework è progettato per dotare i modelli di capacità di recupero intrinseco.

Self-ReSET: Un Framework RL per il Recupero Sicuro del Ragionamento

Fatti principali

Entità

Istituzioni

Fonti