LiveFMBench: Benchmarking della Generazione di Specifiche per Agenti LLM per Programmi C
Un nuovo studio introduce LiveFMBench, un benchmark di 630 programmi C annotati con ACSL per valutare la generazione di specifiche formali basata su LLM e agenti. Il benchmark include 360 casi appena raccolti per mitigare la fuga di dati. Gli esperimenti testano il prompting diretto, l'inferenza abilitata al ragionamento e le pipeline agentiche, rivelando che una valutazione ingenua sovrastima le prestazioni.
Fatti principali
- LiveFMBench è un benchmark in continua evoluzione per la generazione di specifiche formali.
- Contiene 630 programmi C annotati con ACSL.
- 360 casi sono appena raccolti per mitigare la fuga di dati.
- Lo studio valuta il prompting diretto, l'inferenza abilitata al ragionamento e le pipeline agentiche.
- La valutazione ingenua sovrastima sostanzialmente le prestazioni.
- Il benchmark è consapevole della contaminazione.
- Lo studio si concentra su programmi C.
- ACSL sta per ANSI/ISO C Specification Language.
Entità
Istituzioni
- arXiv