CPPO: Ottimizzazione della Politica Coordinata Pass@K per il Ragionamento sul Codice

other · 2026-05-27

La Coordinated Pass@K Policy Optimization (CPPO) introduce una tecnica innovativa per migliorare la generazione di codice sincronizzando diversi sforzi di campionamento. A differenza del tradizionale pass@K, che campiona indipendentemente da una singola distribuzione e spesso produce percorsi di ragionamento simili, CPPO impiega un pianificatore che genera un insieme di K=4 strategie distinte di alto livello. Un risolutore comune affronta poi una soluzione per ciascuna strategia. Il pianificatore viene ottimizzato utilizzando una ricompensa moltiplicativa R_plan = J_psi * R_out, accreditando solo quelle tuple di strategie valide che producono un risultato corretto. Questo metodo è pensato per la programmazione competitiva, dove numerosi problemi possono essere affrontati con varie tecniche algoritmiche distinte.

Fatti principali

1. CPPO trasforma la generazione pass@K in un'esplorazione congiunta delle strategie.
2. Il pass@K standard estrae K campioni indipendenti da una singola distribuzione di risposte.
3. L'approccio standard spesso collassa su percorsi di ragionamento quasi duplicati.
4. CPPO utilizza un pianificatore per emettere una tupla di K=4 metodi alternativi di alto livello.
5. Un risolutore condiviso tenta una soluzione per ciascun metodo.
6. La ricompensa del pianificatore è moltiplicativa: R_plan = J_psi * R_out.
7. Il credito viene assegnato solo a tuple di strategie valide che portano a una soluzione corretta.
8. CPPO è progettato per la programmazione competitiva.

CPPO: Ottimizzazione della Politica Coordinata Pass@K per il Ragionamento sul Codice

Fatti principali

Entità

Istituzioni

Fonti