Il Feedback di Esecuzione Potenzia i Piccoli Modelli di Codice Più della Topologia del Pipeline
Un nuovo studio condiviso su arXiv (2604.21950) esamina come i piccoli modelli linguistici, quelli con 1-3 miliardi di parametri, possano migliorare la generazione di codice. I ricercatori hanno utilizzato una ricerca evolutiva ispirata a NEAT per testare varie configurazioni di pipeline rispetto a un ciclo di raffinamento di base. Hanno lavorato con HumanEval, che ha 164 problemi, e MBPP sanitizzato, contenente 427 problemi, tutto su un singolo laptop. I risultati mostrano che l'aggiunta di auto-raffinamento con feedback di esecuzione migliora le prestazioni di oltre 4 deviazioni standard in entrambi i test. Mentre aiuta a risolvere molti problemi di runtime come NameError e SyntaxError, fatica con errori logici come AssertionError. È interessante notare che un generatore da 1,5 miliardi di parametri ha superato quelli più grandi quando abbinato a un raffinatore esperto, evidenziando il valore del feedback di esecuzione rispetto alla struttura del pipeline per i modelli più piccoli.
Fatti principali
- Studio su arXiv (2604.21950) esamina pipeline di generazione di codice da modelli da 1-3B con feedback di esecuzione.
- Utilizza ricerca evolutiva ispirata a NEAT per testare strutture di pipeline rispetto a un semplice ciclo di raffinamento.
- Valutato su HumanEval (164 problemi) e MBPP sanitizzato (427 problemi) con inferenza locale su un singolo laptop.
- L'auto-raffinamento con feedback di esecuzione migliora la generazione di codice di oltre 4 deviazioni standard su entrambi i benchmark.
- Il raffinamento risolve molti errori di runtime (NameError, SyntaxError) ma raramente errori logici (AssertionError).
- L'identità del generatore è contata meno della capacità del raffinatore: un generatore da 1,5B abbinato a un raffinatore capace ha superato generatori più grandi.
Entità
Istituzioni
- arXiv