Le ricompense basate sul tasso di successo non migliorano l'RL per la generazione di codice

ai-technology · 2026-05-07

Un articolo di ricerca su arXiv (2605.02944) studia l'uso di ricompense basate sul tasso di successo nell'apprendimento per rinforzo (RL) per la generazione di codice, concentrandosi su approcci senza critica come GRPO e RLOO. Sebbene le ricompense binarie per il superamento di tutti i test siano rare e prive di guida per compiti difficili, le ricompense basate sul tasso di successo—derivate dalla percentuale di test superati—sono più abbondanti. Tuttavia, test controllati che coinvolgono vari modelli di base e algoritmi indicano che le ricompense basate sul tasso di successo non migliorano costantemente le prestazioni finali rispetto alle ricompense binarie. I risultati suggeriscono che, nonostante la presenza di gradienti più densi, gli aggiornamenti non riescono a indirizzare in modo affidabile la massa di probabilità verso soluzioni che superano completamente i test.

Fatti principali

L'articolo arXiv 2605.02944 studia le ricompense basate sul tasso di successo nell'RL per la generazione di codice.
La ricompensa binaria per il superamento di tutti i test è scarsa per problemi difficili.
Le ricompense basate sul tasso di successo utilizzano il tasso di superamento dei test come surrogato.
Lo studio copre i metodi RL senza critica GRPO e RLOO.
Le ricompense basate sul tasso di successo non migliorano in modo affidabile le prestazioni rispetto alle ricompense binarie.
I gradienti più densi delle ricompense basate sul tasso di successo non spostano costantemente la massa di probabilità verso soluzioni con superamento completo.
Gli esperimenti sono stati controllati tra modelli di base e algoritmi.
I risultati mettono in discussione il rimedio comune di utilizzare ricompense basate sul tasso di successo.

Le ricompense basate sul tasso di successo non migliorano l'RL per la generazione di codice

Fatti principali

Entità

Istituzioni

Fonti