SolidCoder: Generazione di Codice LLM tramite Esecuzione Concreta

ai-technology · 2026-04-24

SolidCoder è un framework innovativo creato per affrontare il Mental-Reality Gap nella generazione di codice da parte degli LLM, dove questi modelli spesso producono tracce di esecuzione errate e convalidano codice difettoso. Questo divario include due problemi principali: il Specification Gap, che trascura i casi limite, e il Verification Gap, in cui i modelli affermano erroneamente che codice difettoso si comporta correttamente. SolidCoder utilizza oracoli basati su proprietà per sostituire le tracce immaginarie con esecuzione reale in sandbox e sottolinea l'importanza di considerare i casi limite prima di progettare algoritmi. Con GPT-4o, raggiunge tassi di successo notevoli: 95,7% su HumanEval (+0,6%), 77,0% su CodeContests (+4,3%) e 26,7% su APPS (+3,4%). L'idea centrale è "non immaginare — esegui".

Fatti principali

SolidCoder colma il Mental-Reality Gap nella generazione di codice LLM.
Il divario include Specification Gap e Verification Gap.
SolidCoder utilizza esecuzione in sandbox con oracoli basati su proprietà.
Raggiunge il 95,7% pass@1 su HumanEval con GPT-4o.
Raggiunge il 77,0% pass@1 su CodeContests con GPT-4o.
Raggiunge il 26,7% pass@1 su APPS con GPT-4o.
Il framework impone la consapevolezza dei casi limite prima della progettazione dell'algoritmo.
Principio: non immaginare — esegui.

Entità

—

Fonti

arXiv cs.AI — 2026-04-23