VeriScale: Scalare le Suite di Test per la Generazione di Codice Verificabile

ai-technology · 2026-05-23

I ricercatori propongono VeriScale, un framework per migliorare i benchmark nella valutazione della capacità dei LLM di generare codice verificabile. I benchmark esistenti mancano di casi di test sufficienti, sovrastimando le prestazioni dei modelli. VeriScale espande le suite di test in modo avversariale, quindi le distilla in set discriminanti compatti. Applicato a Verina, crea VerinaPlus (espansione 83x) e VerinaLite (variante 14x). Esperimenti su otto modelli all'avanguardia mostrano una migliore accuratezza nella valutazione.

Fatti principali

1. VeriScale è un framework per scalare le suite di test nella generazione di codice verificabile.
2. Affronta le limitazioni nella quantità e qualità dei casi di test nei benchmark esistenti.
3. Il framework ha due fasi: espansione e riduzione della suite di test.
4. VeriScale è istanziato su Verina per creare VerinaPlus e VerinaLite.
5. VerinaPlus espande le suite di test originali di oltre 83 volte.
6. VerinaLite è una variante leggera 14x.
7. Gli esperimenti sono stati condotti su otto modelli all'avanguardia.
8. Il lavoro è pubblicato su arXiv con ID 2605.22368.

VeriScale: Scalare le Suite di Test per la Generazione di Codice Verificabile

Fatti principali

Entità

Istituzioni

Fonti