CodeRL+ migliora la generazione di codice con l'allineamento della semantica di esecuzione
Un nuovo approccio chiamato CodeRL+ migliora la generazione di codice nei Large Language Models integrando l'allineamento della semantica di esecuzione nel pipeline di Reinforcement Learning with Verifiable Rewards (RLVR). I metodi RLVR tradizionali si basano su segnali binari di superamento/fallimento dei casi di test, che sono inefficienti per catturare errori logici sottili. CodeRL+ consente al modello di inferire traiettorie di esecuzione a livello di variabile, fornendo segnali di apprendimento diretti della semantica di esecuzione. Questo colma il divario tra i pattern testuali del codice e la correttezza funzionale governata dalla semantica di esecuzione formale. L'approccio è descritto in un articolo su arXiv (2510.18471).
Fatti principali
- CodeRL+ è un nuovo approccio per la generazione di codice.
- Integra l'allineamento della semantica di esecuzione nel training RLVR.
- RLVR utilizza ricompense basate sui risultati dell'esecuzione dei casi di test.
- I segnali binari di superamento/fallimento sono inefficienti per errori logici sottili.
- CodeRL+ consente l'inferenza di traiettorie di esecuzione a livello di variabile.
- Fornisce segnali di apprendimento diretti della semantica di esecuzione.
- L'articolo è disponibile su arXiv con ID 2510.18471.
- L'approccio affronta il divario semantico tra pattern testuali e correttezza funzionale.
Entità
Istituzioni
- arXiv