La sintassi dei test influenza la qualità della generazione di codice AI
Un'ampia indagine empirica che utilizza il framework SEGA ha analizzato oltre 830 file generati, 12 modelli e 3 fornitori. I risultati indicano che la sintassi dei test inline, in particolare i doctest di Python, raggiunge una conservazione quasi perfetta al 100% e un tasso di correttezza compreso tra il 92% e il 100% per la generazione di codice AI. Al contrario, la sintassi dei test separati, come i blocchi #[test] di Rust, rivela significative discrepanze nelle prestazioni del modello, con una correttezza che varia dallo 0% al 100%, evidenziando la mancanza di correlazione tra conservazione e correttezza. Questa ricerca, disponibile su arXiv (2604.19826), valuta i formati di test inline rispetto a quelli separati su un'implementazione di heap d-ary, notando che le prestazioni del modello cambiano nel corso delle generazioni, con un modello che fallisce significativamente nel sopprimere i test.
Fatti principali
- Articolo arXiv 2604.19826
- Oltre 830 file generati analizzati
- 12 modelli testati
- 3 fornitori coinvolti
- Utilizzato il framework di valutazione tridimensionale SEGA
- Test inline (doctest Python) vs test separati (blocchi #[test] Rust)
- Implementazione di heap d-ary usata come benchmark
- Test inline: conservazione al 100%, correttezza 92-100%
- Test separati: correttezza 0-100% tra i modelli
- Un modello ha rotto la soppressione dei test
Entità
Istituzioni
- arXiv