ARTFEED — Contemporary Art Intelligence

CPPO: Ottimizzazione della Politica Coordinata Pass@K per il Ragionamento sul Codice

other · 2026-05-27

La Coordinated Pass@K Policy Optimization (CPPO) introduce una tecnica innovativa per migliorare la generazione di codice sincronizzando diversi sforzi di campionamento. A differenza del tradizionale pass@K, che campiona indipendentemente da una singola distribuzione e spesso produce percorsi di ragionamento simili, CPPO impiega un pianificatore che genera un insieme di K=4 strategie distinte di alto livello. Un risolutore comune affronta poi una soluzione per ciascuna strategia. Il pianificatore viene ottimizzato utilizzando una ricompensa moltiplicativa R_plan = J_psi * R_out, accreditando solo quelle tuple di strategie valide che producono un risultato corretto. Questo metodo è pensato per la programmazione competitiva, dove numerosi problemi possono essere affrontati con varie tecniche algoritmiche distinte.

Fatti principali

  • 1. CPPO trasforma la generazione pass@K in un'esplorazione congiunta delle strategie.
  • 2. Il pass@K standard estrae K campioni indipendenti da una singola distribuzione di risposte.
  • 3. L'approccio standard spesso collassa su percorsi di ragionamento quasi duplicati.
  • 4. CPPO utilizza un pianificatore per emettere una tupla di K=4 metodi alternativi di alto livello.
  • 5. Un risolutore condiviso tenta una soluzione per ciascun metodo.
  • 6. La ricompensa del pianificatore è moltiplicativa: R_plan = J_psi * R_out.
  • 7. Il credito viene assegnato solo a tuple di strategie valide che portano a una soluzione corretta.
  • 8. CPPO è progettato per la programmazione competitiva.

Entità

Istituzioni

  • arXiv

Fonti