RESTestBench: Nuovo benchmark valuta i test API REST generati da LLM a partire da requisiti in linguaggio naturale
I ricercatori hanno presentato RESTestBench, un benchmark volto a valutare l'efficacia dei casi di test per API REST generati da LLM nel validare il comportamento funzionale derivato da requisiti in linguaggio naturale. Gli strumenti di test tradizionali si basano su metriche di copertura del codice e guasti legati a crash, che rappresentano in modo inadeguato la validazione basata sui requisiti. RESTestBench comprende tre servizi REST con requisiti in linguaggio naturale verificati manualmente, presentati in forma sia precisa che ambigua, consentendo valutazioni controllate e riproducibili. Introduce inoltre una metrica di test di mutazione incentrata sui requisiti, che valuta l'efficienza di rilevamento dei guasti per requisito, basandosi su ricerche precedenti di Bartocci et al. Il benchmark è stato utilizzato per analizzare due metodologie su vari LLM avanzati: generazione senza raffinamento e generazione con raffinamento, con l'obiettivo di migliorare la validazione dei test generati.
Fatti principali
- RESTestBench è un nuovo benchmark per valutare i casi di test per API REST generati da LLM a partire da requisiti in linguaggio naturale.
- Metriche esistenti come la copertura del codice e i guasti basati su crash sono proxy deboli per la validazione basata sui requisiti.
- Il benchmark comprende tre servizi REST con requisiti in linguaggio naturale verificati manualmente in varianti precise e vaghe.
- Introduce una metrica di test di mutazione basata sui requisiti che estende l'approccio di Bartocci et al.
- Due approcci sono stati valutati su diversi LLM all'avanguardia: generazione senza raffinamento e generazione con raffinamento.
- Il benchmark consente una valutazione controllata e riproducibile della generazione di test basata sui requisiti.
- Il lavoro affronta il divario nella valutazione se i test generati validano il comportamento funzionale previsto.
- L'articolo è disponibile su arXiv con ID 2604.25862.
Entità
Istituzioni
- arXiv