LLM e Dafny: Un Dataset per la Generazione di Codice Verificato
I ricercatori hanno introdotto il dataset NaturalLanguage2VerifiedCode (NL2VC)-60, composto da 60 problemi algoritmici complessi progettati per colmare il divario tra linguaggio naturale e codice formalmente verificato. Lo studio valuta sette LLM open-weight utilizzando una strategia di prompting a livelli — prompt senza contesto, con firma e auto-riparanti — con il verificatore Dafny che fornisce feedback iterativo. Il lavoro affronta la verifica vacua, in cui i modelli soddisfano i verificatori con implementazioni banali, imponendo specifiche formali rigorose. Il dataset mira a migliorare l'affidabilità del codice generato dagli LLM attraverso la verifica formale, richiedendo ai modelli di sintetizzare sia la logica di implementazione che le specifiche dimostrabili. L'approccio affronta la sfida del passaggio da descrizioni informali dei problemi a specifiche formali precise, un passo critico nell'ingegneria del software automatizzata.
Fatti principali
- Il dataset NL2VC-60 contiene 60 problemi algoritmici complessi.
- Sono stati valutati sette LLM open-weight.
- La strategia di prompting a livelli include prompt senza contesto, con firma e auto-riparanti.
- Il verificatore Dafny fornisce feedback iterativo.
- Il lavoro affronta la verifica vacua nella generazione di codice degli LLM.
- La verifica formale richiede agli LLM di sintetizzare logica di implementazione e specifiche formali.
- La transizione dal linguaggio naturale alla specifica formale è una sfida chiave.
- Pubblicato su arXiv con identificatore 2604.22601.
Entità
Istituzioni
- arXiv