SWE-Mutation: un benchmark per valutare le suite di test generate da LLM

ai-technology · 2026-05-23

È stato introdotto un nuovo benchmark chiamato SWE-Mutation per valutare la qualità delle suite di test generate da modelli linguistici di grandi dimensioni (LLM) per compiti di ingegneria del software. Il benchmark utilizza soluzioni sistematicamente mutate progettate per 'ingannare' le suite di test e superare la validazione, affrontando il collo di bottiglia della scarsità di suite di test di alta qualità. Le suite di test generate da LLM sono spesso superficiali e mancano di potere discriminante, ostacolando la riparazione dei programmi e l'apprendimento per rinforzo. SWE-Mutation mira a essere un primo passo verso la costruzione di suite di test di alta qualità.

Fatti principali

SWE-Mutation è un benchmark per valutare le suite di test generate da LLM.
Utilizza soluzioni sistematicamente mutate per testare il potere discriminante.
Le suite di test di alta qualità sono scarse a causa degli alti costi di annotazione.
Le suite di test generate da LLM tendono ad essere superficiali.
Le suite di test sono necessarie per la riparazione dei programmi e l'apprendimento per rinforzo.
Il benchmark affronta un collo di bottiglia chiave nel ridimensionamento delle capacità degli LLM.
L'articolo è disponibile su arXiv come 2605.22175.
Il tipo di annuncio è cross.

SWE-Mutation: un benchmark per valutare le suite di test generate da LLM

Fatti principali

Entità

Istituzioni

Fonti