Studio RLVR Modella Profondità del Ragionamento e Complessità Ambientale
Un recente studio pubblicato su arXiv (2605.26934) mette in discussione la prospettiva limitata sul ragionamento nell'apprendimento per rinforzo con ricompense verificabili (RLVR). I ricercatori introducono un quadro bidimensionale per il ragionamento, che include la difficoltà—comprendente la profondità del ragionamento e la complessità ambientale (dove i modelli gestiscono distrattori e strutture interattive)—e i tipi di ragionamento premiati, come il tracciamento deduttivo dello stato, il recupero abduttivo, l'induzione di regole induttive e il trasferimento analogico. Per esplorare questi elementi, hanno sviluppato un ambiente sintetico di grafo di conoscenza con distribuzioni controllate pre e post-addestramento, con variazioni di profondità, complessità e categorie di compiti. L'obiettivo dello studio è migliorare il post-addestramento RLVR affrontando la diversità del ragionamento incontrato in scenari reali.
Fatti principali
- Il paper arXiv 2605.26934 introduce uno spazio di ragionamento bidimensionale per RLVR.
- La difficoltà include profondità del ragionamento e complessità ambientale.
- Forme di ragionamento premiato: deduttivo, abduttivo, induttivo, analogico.
- Ambiente sintetico di grafo di conoscenza utilizzato per esperimenti controllati.
- Lo studio affronta i limiti della ricerca RLVR esistente focalizzata solo sulla profondità.
- La complessità ambientale coinvolge distrattori e strutture interattive.
- Le distribuzioni pre e post-addestramento sono controllate nell'ambiente.
- L'obiettivo è modellare meglio i compiti di ragionamento del mondo reale.
Entità
Istituzioni
- arXiv