ARTFEED — Contemporary Art Intelligence

La sintassi dei test influenza la qualità della generazione di codice AI

publication · 2026-04-24

Un'ampia indagine empirica che utilizza il framework SEGA ha analizzato oltre 830 file generati, 12 modelli e 3 fornitori. I risultati indicano che la sintassi dei test inline, in particolare i doctest di Python, raggiunge una conservazione quasi perfetta al 100% e un tasso di correttezza compreso tra il 92% e il 100% per la generazione di codice AI. Al contrario, la sintassi dei test separati, come i blocchi #[test] di Rust, rivela significative discrepanze nelle prestazioni del modello, con una correttezza che varia dallo 0% al 100%, evidenziando la mancanza di correlazione tra conservazione e correttezza. Questa ricerca, disponibile su arXiv (2604.19826), valuta i formati di test inline rispetto a quelli separati su un'implementazione di heap d-ary, notando che le prestazioni del modello cambiano nel corso delle generazioni, con un modello che fallisce significativamente nel sopprimere i test.

Fatti principali

  • Articolo arXiv 2604.19826
  • Oltre 830 file generati analizzati
  • 12 modelli testati
  • 3 fornitori coinvolti
  • Utilizzato il framework di valutazione tridimensionale SEGA
  • Test inline (doctest Python) vs test separati (blocchi #[test] Rust)
  • Implementazione di heap d-ary usata come benchmark
  • Test inline: conservazione al 100%, correttezza 92-100%
  • Test separati: correttezza 0-100% tra i modelli
  • Un modello ha rotto la soppressione dei test

Entità

Istituzioni

  • arXiv

Fonti