I Reset Migliorano l'Assegnazione del Credito nel Ragionamento dei Modelli Linguistici
Un nuovo preprint su arXiv (2605.25507) propone due metodi—Random-Reset Policy Optimization (RRPO) e Self-Reset Policy Optimization (SRPO)—per migliorare l'assegnazione del credito nell'apprendimento per rinforzo per il ragionamento dei modelli linguistici. I metodi attuali assegnano una singola ricompensa finale uniformemente a tutti i token, ignorando quali passaggi hanno contribuito al successo o al fallimento. RRPO seleziona stati di reset casualmente dai passaggi di ragionamento, mentre SRPO permette al modello di auto-localizzare i passaggi errati e resettare lì. Entrambi consentono un'assegnazione del credito più precisa tornando a stati intermedi e ricampionando continuazioni controfattuali, permettendo un raffinamento mirato dei passaggi di ragionamento errati anziché aggiornare intere traiettorie in modo uniforme.
Fatti principali
- arXiv:2605.25507
- RRPO seleziona stati di reset casualmente dai passaggi di ragionamento
- SRPO auto-localizza i passaggi errati e resetta lì
- I reset consentono di tornare a stati intermedi e ricampionare continuazioni controfattuali
- L'assegnazione uniforme ignora quali passaggi hanno contribuito al successo o al fallimento
- È abilitato il raffinamento mirato dei passaggi di ragionamento errati
- I metodi contemporanei di apprendimento per rinforzo con ricompense verificabili post-addestrano i modelli linguistici su ragionamenti multi-passaggio
- Le differenze nei risultati possono essere attribuite alle decisioni prese al punto di reset
Entità
Istituzioni
- arXiv