LiveFMBench: Benchmarking della Generazione di Specifiche per Agenti LLM per Programmi C

other · 2026-05-06

Un nuovo studio introduce LiveFMBench, un benchmark di 630 programmi C annotati con ACSL per valutare la generazione di specifiche formali basata su LLM e agenti. Il benchmark include 360 casi appena raccolti per mitigare la fuga di dati. Gli esperimenti testano il prompting diretto, l'inferenza abilitata al ragionamento e le pipeline agentiche, rivelando che una valutazione ingenua sovrastima le prestazioni.

Fatti principali

LiveFMBench è un benchmark in continua evoluzione per la generazione di specifiche formali.
Contiene 630 programmi C annotati con ACSL.
360 casi sono appena raccolti per mitigare la fuga di dati.
Lo studio valuta il prompting diretto, l'inferenza abilitata al ragionamento e le pipeline agentiche.
La valutazione ingenua sovrastima sostanzialmente le prestazioni.
Il benchmark è consapevole della contaminazione.
Lo studio si concentra su programmi C.
ACSL sta per ANSI/ISO C Specification Language.

LiveFMBench: Benchmarking della Generazione di Specifiche per Agenti LLM per Programmi C

Fatti principali

Entità

Istituzioni

Fonti