La sintassi dei test influenza la qualità della generazione di codice AI

publication · 2026-04-24

Un'ampia indagine empirica che utilizza il framework SEGA ha analizzato oltre 830 file generati, 12 modelli e 3 fornitori. I risultati indicano che la sintassi dei test inline, in particolare i doctest di Python, raggiunge una conservazione quasi perfetta al 100% e un tasso di correttezza compreso tra il 92% e il 100% per la generazione di codice AI. Al contrario, la sintassi dei test separati, come i blocchi #[test] di Rust, rivela significative discrepanze nelle prestazioni del modello, con una correttezza che varia dallo 0% al 100%, evidenziando la mancanza di correlazione tra conservazione e correttezza. Questa ricerca, disponibile su arXiv (2604.19826), valuta i formati di test inline rispetto a quelli separati su un'implementazione di heap d-ary, notando che le prestazioni del modello cambiano nel corso delle generazioni, con un modello che fallisce significativamente nel sopprimere i test.

Fatti principali

Articolo arXiv 2604.19826
Oltre 830 file generati analizzati
12 modelli testati
3 fornitori coinvolti
Utilizzato il framework di valutazione tridimensionale SEGA
Test inline (doctest Python) vs test separati (blocchi #[test] Rust)
Implementazione di heap d-ary usata come benchmark
Test inline: conservazione al 100%, correttezza 92-100%
Test separati: correttezza 0-100% tra i modelli
Un modello ha rotto la soppressione dei test

La sintassi dei test influenza la qualità della generazione di codice AI

Fatti principali

Entità

Istituzioni

Fonti