I Reset Migliorano l'Assegnazione del Credito nel Ragionamento dei Modelli Linguistici

ai-technology · 2026-05-26

Un nuovo preprint su arXiv (2605.25507) propone due metodi—Random-Reset Policy Optimization (RRPO) e Self-Reset Policy Optimization (SRPO)—per migliorare l'assegnazione del credito nell'apprendimento per rinforzo per il ragionamento dei modelli linguistici. I metodi attuali assegnano una singola ricompensa finale uniformemente a tutti i token, ignorando quali passaggi hanno contribuito al successo o al fallimento. RRPO seleziona stati di reset casualmente dai passaggi di ragionamento, mentre SRPO permette al modello di auto-localizzare i passaggi errati e resettare lì. Entrambi consentono un'assegnazione del credito più precisa tornando a stati intermedi e ricampionando continuazioni controfattuali, permettendo un raffinamento mirato dei passaggi di ragionamento errati anziché aggiornare intere traiettorie in modo uniforme.

Fatti principali

arXiv:2605.25507
RRPO seleziona stati di reset casualmente dai passaggi di ragionamento
SRPO auto-localizza i passaggi errati e resetta lì
I reset consentono di tornare a stati intermedi e ricampionare continuazioni controfattuali
L'assegnazione uniforme ignora quali passaggi hanno contribuito al successo o al fallimento
È abilitato il raffinamento mirato dei passaggi di ragionamento errati
I metodi contemporanei di apprendimento per rinforzo con ricompense verificabili post-addestrano i modelli linguistici su ragionamenti multi-passaggio
Le differenze nei risultati possono essere attribuite alle decisioni prese al punto di reset

I Reset Migliorano l'Assegnazione del Credito nel Ragionamento dei Modelli Linguistici

Fatti principali

Entità

Istituzioni

Fonti