SolidCoder: Generazione di Codice LLM tramite Esecuzione Concreta
SolidCoder è un framework innovativo creato per affrontare il Mental-Reality Gap nella generazione di codice da parte degli LLM, dove questi modelli spesso producono tracce di esecuzione errate e convalidano codice difettoso. Questo divario include due problemi principali: il Specification Gap, che trascura i casi limite, e il Verification Gap, in cui i modelli affermano erroneamente che codice difettoso si comporta correttamente. SolidCoder utilizza oracoli basati su proprietà per sostituire le tracce immaginarie con esecuzione reale in sandbox e sottolinea l'importanza di considerare i casi limite prima di progettare algoritmi. Con GPT-4o, raggiunge tassi di successo notevoli: 95,7% su HumanEval (+0,6%), 77,0% su CodeContests (+4,3%) e 26,7% su APPS (+3,4%). L'idea centrale è "non immaginare — esegui".
Fatti principali
- SolidCoder colma il Mental-Reality Gap nella generazione di codice LLM.
- Il divario include Specification Gap e Verification Gap.
- SolidCoder utilizza esecuzione in sandbox con oracoli basati su proprietà.
- Raggiunge il 95,7% pass@1 su HumanEval con GPT-4o.
- Raggiunge il 77,0% pass@1 su CodeContests con GPT-4o.
- Raggiunge il 26,7% pass@1 su APPS con GPT-4o.
- Il framework impone la consapevolezza dei casi limite prima della progettazione dell'algoritmo.
- Principio: non immaginare — esegui.
Entità
—