CoSPlay: Gioco Cooperativo Auto-generato per la Generazione di Codice al Momento del Test
Esiste un nuovo framework chiamato CoSPlay, descritto nell'articolo arXiv 2605.23491. Affronta il problema della necessità di test unitari ground-truth per la generazione di codice nei modelli linguistici di grandi dimensioni (LLM). Le tecniche esistenti, come l'apprendimento per rinforzo con ricompense verificabili (RLVR) e il test-time scaling (TTS), si basano su costosi test ground-truth per un addestramento adeguato, il che può essere uno svantaggio. CoSPlay cambia le regole eliminando del tutto la necessità di questi test, utilizzando il gioco cooperativo auto-generato per migliorare sia il codice che i test unitari. Inizia generando diversi concetti di soluzione e individuando potenziali modalità di fallimento per ideare solidi test unitari. Quindi utilizza segnali bidirezionali di conteggio dei superamenti per perfezionare il codice e i test, riducendo il rumore e le false connessioni nei test auto-generati.
Fatti principali
- CoSPlay è un framework senza ground-truth e senza addestramento per la generazione di codice negli LLM
- Migliora congiuntamente codice e test unitari attraverso il gioco cooperativo auto-generato
- Esplora diverse idee di soluzione e identifica potenziali modalità di fallimento
- Utilizza segnali bidirezionali di conteggio dei superamenti per il perfezionamento
- L'articolo è arXiv:2605.23491
- Affronta il collo di bottiglia dei test unitari ground-truth nei metodi RLVR e TTS
- I test unitari auto-generati sono spesso rumorosi o accoppiati spuriosamente con codice errato
- CoSPlay consente un efficace test-time scaling senza test ground-truth
Entità
Istituzioni
- arXiv