Sintesi Controllabile di Dati di Supervisione dei Processi per Modelli di Ricompensa
È stato introdotto un nuovo approccio per sintetizzare dati di supervisione dei processi destinati ai modelli di ricompensa dei processi (PRM). Questa tecnica prevede la creazione di una sequenza di ragionamento simbolico valida, l'introduzione di un errore basato su un template in un punto specifico, il ricalcolo dei passaggi successivi in base a questo stato alterato e la conferma che il passaggio errato non può essere derivato dai suoi passaggi precedenti. Le traiettorie accoppiate generate mostrano un'invalidità del prefisso al primo errore, mantenendo la coerenza della traiettoria dopo il ricalcolo simbolico. Queste traiettorie vengono quindi convertite in processi di linguaggio naturale allineati per l'addestramento e la valutazione dei PRM. I risultati sperimentali indicano che i dati sintetizzati migliorano il riordinamento Best-of-8 nei test di ragionamento logico e sono applicabili al ragionamento matematico, con valutazioni a livello di passaggio che supportano ulteriormente il metodo.
Fatti principali
- Il framework costruisce catene di ragionamento simbolico corrette
- Inietta errori basati su template nei passaggi intermedi
- Ricalcola i passaggi successivi in uno stato corrotto
- Verifica che il passaggio iniettato non sia derivabile dal suo prefisso
- Le traiettorie accoppiate sono invalide nel prefisso al primo errore
- Le traiettorie rimangono consistenti dopo il ricalcolo simbolico
- I dati migliorano il riordinamento Best-of-8 nel ragionamento logico
- Si trasferiscono a compiti di ragionamento matematico
Entità
Istituzioni
- arXiv