CPPO: Ottimizzazione della Politica Coordinata Pass@K per il Ragionamento sul Codice
La Coordinated Pass@K Policy Optimization (CPPO) introduce una tecnica innovativa per migliorare la generazione di codice sincronizzando diversi sforzi di campionamento. A differenza del tradizionale pass@K, che campiona indipendentemente da una singola distribuzione e spesso produce percorsi di ragionamento simili, CPPO impiega un pianificatore che genera un insieme di K=4 strategie distinte di alto livello. Un risolutore comune affronta poi una soluzione per ciascuna strategia. Il pianificatore viene ottimizzato utilizzando una ricompensa moltiplicativa R_plan = J_psi * R_out, accreditando solo quelle tuple di strategie valide che producono un risultato corretto. Questo metodo è pensato per la programmazione competitiva, dove numerosi problemi possono essere affrontati con varie tecniche algoritmiche distinte.
Fatti principali
- 1. CPPO trasforma la generazione pass@K in un'esplorazione congiunta delle strategie.
- 2. Il pass@K standard estrae K campioni indipendenti da una singola distribuzione di risposte.
- 3. L'approccio standard spesso collassa su percorsi di ragionamento quasi duplicati.
- 4. CPPO utilizza un pianificatore per emettere una tupla di K=4 metodi alternativi di alto livello.
- 5. Un risolutore condiviso tenta una soluzione per ciascun metodo.
- 6. La ricompensa del pianificatore è moltiplicativa: R_plan = J_psi * R_out.
- 7. Il credito viene assegnato solo a tuple di strategie valide che portano a una soluzione corretta.
- 8. CPPO è progettato per la programmazione competitiva.
Entità
Istituzioni
- arXiv