ARTFEED — Contemporary Art Intelligence

VeriScale: Scalare le Suite di Test per la Generazione di Codice Verificabile

ai-technology · 2026-05-23

I ricercatori propongono VeriScale, un framework per migliorare i benchmark nella valutazione della capacità dei LLM di generare codice verificabile. I benchmark esistenti mancano di casi di test sufficienti, sovrastimando le prestazioni dei modelli. VeriScale espande le suite di test in modo avversariale, quindi le distilla in set discriminanti compatti. Applicato a Verina, crea VerinaPlus (espansione 83x) e VerinaLite (variante 14x). Esperimenti su otto modelli all'avanguardia mostrano una migliore accuratezza nella valutazione.

Fatti principali

  • 1. VeriScale è un framework per scalare le suite di test nella generazione di codice verificabile.
  • 2. Affronta le limitazioni nella quantità e qualità dei casi di test nei benchmark esistenti.
  • 3. Il framework ha due fasi: espansione e riduzione della suite di test.
  • 4. VeriScale è istanziato su Verina per creare VerinaPlus e VerinaLite.
  • 5. VerinaPlus espande le suite di test originali di oltre 83 volte.
  • 6. VerinaLite è una variante leggera 14x.
  • 7. Gli esperimenti sono stati condotti su otto modelli all'avanguardia.
  • 8. Il lavoro è pubblicato su arXiv con ID 2605.22368.

Entità

Istituzioni

  • arXiv

Fonti