CodeRL+ migliora la generazione di codice con l'allineamento della semantica di esecuzione

ai-technology · 2026-04-24

Un nuovo approccio chiamato CodeRL+ migliora la generazione di codice nei Large Language Models integrando l'allineamento della semantica di esecuzione nel pipeline di Reinforcement Learning with Verifiable Rewards (RLVR). I metodi RLVR tradizionali si basano su segnali binari di superamento/fallimento dei casi di test, che sono inefficienti per catturare errori logici sottili. CodeRL+ consente al modello di inferire traiettorie di esecuzione a livello di variabile, fornendo segnali di apprendimento diretti della semantica di esecuzione. Questo colma il divario tra i pattern testuali del codice e la correttezza funzionale governata dalla semantica di esecuzione formale. L'approccio è descritto in un articolo su arXiv (2510.18471).

Fatti principali

CodeRL+ è un nuovo approccio per la generazione di codice.
Integra l'allineamento della semantica di esecuzione nel training RLVR.
RLVR utilizza ricompense basate sui risultati dell'esecuzione dei casi di test.
I segnali binari di superamento/fallimento sono inefficienti per errori logici sottili.
CodeRL+ consente l'inferenza di traiettorie di esecuzione a livello di variabile.
Fornisce segnali di apprendimento diretti della semantica di esecuzione.
L'articolo è disponibile su arXiv con ID 2510.18471.
L'approccio affronta il divario semantico tra pattern testuali e correttezza funzionale.

CodeRL+ migliora la generazione di codice con l'allineamento della semantica di esecuzione

Fatti principali

Entità

Istituzioni

Fonti