VeriScale: Scalare le Suite di Test per la Generazione di Codice Verificabile
I ricercatori propongono VeriScale, un framework per migliorare i benchmark nella valutazione della capacità dei LLM di generare codice verificabile. I benchmark esistenti mancano di casi di test sufficienti, sovrastimando le prestazioni dei modelli. VeriScale espande le suite di test in modo avversariale, quindi le distilla in set discriminanti compatti. Applicato a Verina, crea VerinaPlus (espansione 83x) e VerinaLite (variante 14x). Esperimenti su otto modelli all'avanguardia mostrano una migliore accuratezza nella valutazione.
Fatti principali
- 1. VeriScale è un framework per scalare le suite di test nella generazione di codice verificabile.
- 2. Affronta le limitazioni nella quantità e qualità dei casi di test nei benchmark esistenti.
- 3. Il framework ha due fasi: espansione e riduzione della suite di test.
- 4. VeriScale è istanziato su Verina per creare VerinaPlus e VerinaLite.
- 5. VerinaPlus espande le suite di test originali di oltre 83 volte.
- 6. VerinaLite è una variante leggera 14x.
- 7. Gli esperimenti sono stati condotti su otto modelli all'avanguardia.
- 8. Il lavoro è pubblicato su arXiv con ID 2605.22368.
Entità
Istituzioni
- arXiv