Self-ReSET: Un Framework RL per il Recupero Sicuro del Ragionamento
Un nuovo framework di apprendimento per rinforzo chiamato Self-ReSET mira a dotare i Large Reasoning Models della capacità di auto-recupero da traiettorie di ragionamento non sicure. I Large Reasoning Models eccellono nell'autocorrezione in domini generali, ma spesso falliscono nel recuperare da percorsi di ragionamento non sicuri sotto attacchi avversari. I metodi di allineamento esistenti ottimizzano i modelli su dati esperti statici con tracce di riflessione o prefissi avversari, ma questi approcci faticano perché i dati di addestramento statici si discostano dalle tracce di ragionamento dinamiche e on-policy del modello. Self-ReSET utilizza puro apprendimento per rinforzo, riutilizzando le traiettorie di errore di sicurezza del modello stesso come stati iniziali per l'addestramento. Esperimenti su vari LRM e benchmark dimostrano l'efficacia del framework. Il paper è disponibile su arXiv con ID 2605.08936.
Fatti principali
- Self-ReSET è un framework di puro apprendimento per rinforzo per Large Reasoning Models.
- Affronta il problema delle traiettorie di ragionamento non sicure sotto attacchi avversari.
- I metodi di allineamento esistenti utilizzano dati esperti statici, limitando la generalizzazione.
- Self-ReSET riutilizza le traiettorie di errore di sicurezza del modello stesso come stati iniziali.
- Gli esperimenti sono stati condotti su vari LRM e benchmark.
- Il paper è pubblicato su arXiv con ID 2605.08936.
- I Large Reasoning Models hanno capacità di autocorrezione in domini generali.
- Il framework è progettato per dotare i modelli di capacità di recupero intrinseco.
Entità
Istituzioni
- arXiv