ARTFEED — Contemporary Art Intelligence

LiveFMBench: Benchmarking della Generazione di Specifiche per Agenti LLM per Programmi C

other · 2026-05-06

Un nuovo studio introduce LiveFMBench, un benchmark di 630 programmi C annotati con ACSL per valutare la generazione di specifiche formali basata su LLM e agenti. Il benchmark include 360 casi appena raccolti per mitigare la fuga di dati. Gli esperimenti testano il prompting diretto, l'inferenza abilitata al ragionamento e le pipeline agentiche, rivelando che una valutazione ingenua sovrastima le prestazioni.

Fatti principali

  • LiveFMBench è un benchmark in continua evoluzione per la generazione di specifiche formali.
  • Contiene 630 programmi C annotati con ACSL.
  • 360 casi sono appena raccolti per mitigare la fuga di dati.
  • Lo studio valuta il prompting diretto, l'inferenza abilitata al ragionamento e le pipeline agentiche.
  • La valutazione ingenua sovrastima sostanzialmente le prestazioni.
  • Il benchmark è consapevole della contaminazione.
  • Lo studio si concentra su programmi C.
  • ACSL sta per ANSI/ISO C Specification Language.

Entità

Istituzioni

  • arXiv

Fonti