ARTFEED — Contemporary Art Intelligence

I Reset Migliorano l'Assegnazione del Credito nel Ragionamento dei Modelli Linguistici

ai-technology · 2026-05-26

Un nuovo preprint su arXiv (2605.25507) propone due metodi—Random-Reset Policy Optimization (RRPO) e Self-Reset Policy Optimization (SRPO)—per migliorare l'assegnazione del credito nell'apprendimento per rinforzo per il ragionamento dei modelli linguistici. I metodi attuali assegnano una singola ricompensa finale uniformemente a tutti i token, ignorando quali passaggi hanno contribuito al successo o al fallimento. RRPO seleziona stati di reset casualmente dai passaggi di ragionamento, mentre SRPO permette al modello di auto-localizzare i passaggi errati e resettare lì. Entrambi consentono un'assegnazione del credito più precisa tornando a stati intermedi e ricampionando continuazioni controfattuali, permettendo un raffinamento mirato dei passaggi di ragionamento errati anziché aggiornare intere traiettorie in modo uniforme.

Fatti principali

  • arXiv:2605.25507
  • RRPO seleziona stati di reset casualmente dai passaggi di ragionamento
  • SRPO auto-localizza i passaggi errati e resetta lì
  • I reset consentono di tornare a stati intermedi e ricampionare continuazioni controfattuali
  • L'assegnazione uniforme ignora quali passaggi hanno contribuito al successo o al fallimento
  • È abilitato il raffinamento mirato dei passaggi di ragionamento errati
  • I metodi contemporanei di apprendimento per rinforzo con ricompense verificabili post-addestrano i modelli linguistici su ragionamenti multi-passaggio
  • Le differenze nei risultati possono essere attribuite alle decisioni prese al punto di reset

Entità

Istituzioni

  • arXiv

Fonti