Sintesi Controllabile di Dati di Supervisione dei Processi per Modelli di Ricompensa

other · 2026-05-06

È stato introdotto un nuovo approccio per sintetizzare dati di supervisione dei processi destinati ai modelli di ricompensa dei processi (PRM). Questa tecnica prevede la creazione di una sequenza di ragionamento simbolico valida, l'introduzione di un errore basato su un template in un punto specifico, il ricalcolo dei passaggi successivi in base a questo stato alterato e la conferma che il passaggio errato non può essere derivato dai suoi passaggi precedenti. Le traiettorie accoppiate generate mostrano un'invalidità del prefisso al primo errore, mantenendo la coerenza della traiettoria dopo il ricalcolo simbolico. Queste traiettorie vengono quindi convertite in processi di linguaggio naturale allineati per l'addestramento e la valutazione dei PRM. I risultati sperimentali indicano che i dati sintetizzati migliorano il riordinamento Best-of-8 nei test di ragionamento logico e sono applicabili al ragionamento matematico, con valutazioni a livello di passaggio che supportano ulteriormente il metodo.

Fatti principali

Il framework costruisce catene di ragionamento simbolico corrette
Inietta errori basati su template nei passaggi intermedi
Ricalcola i passaggi successivi in uno stato corrotto
Verifica che il passaggio iniettato non sia derivabile dal suo prefisso
Le traiettorie accoppiate sono invalide nel prefisso al primo errore
Le traiettorie rimangono consistenti dopo il ricalcolo simbolico
I dati migliorano il riordinamento Best-of-8 nel ragionamento logico
Si trasferiscono a compiti di ragionamento matematico

Sintesi Controllabile di Dati di Supervisione dei Processi per Modelli di Ricompensa

Fatti principali

Entità

Istituzioni

Fonti