I test pubblici creano un divario di eccessiva fiducia nella generazione di codice LLM
Un nuovo studio da arXiv (2604.21598) rivela che i framework multi-agente per la generazione autonoma di codice si basano fortemente su casi di test pubblici forniti dall'uomo, il che introduce un "divario di eccessiva fiducia". Questi framework, che utilizzano pianificazione e debugging guidati da simulazione per verificare la logica, si adattano eccessivamente a esempi semplicistici e falliscono su casi di valutazione nascosti. La dipendenza da esempi input-output scritti manualmente è un collo di bottiglia ad alta intensità di lavoro, limitando i metodi a benchmark di programmazione competitiva curati poiché gli esempi di verità fondamentale sono raramente disponibili nell'ingegneria del software reale.
Fatti principali
- 1. I framework multi-agente sono ampiamente utilizzati nella generazione autonoma di codice.
- 2. Lavori recenti incorporano pianificazione e debugging guidati da simulazione.
- 3. I modelli linguistici tracciano i passi di esecuzione per verificare la logica.
- 4. Gli approcci dipendono da casi di test pubblici forniti dall'uomo.
- 5. Scrivere manualmente esempi input-output è ad alta intensità di lavoro.
- 6. Gli esempi di verità fondamentale sono raramente disponibili prima dell'implementazione.
- 7. La dipendenza dai test pubblici induce un divario di eccessiva fiducia.
- 8. I framework si adattano eccessivamente a esempi semplicistici e falliscono su valutazioni nascoste.
Entità
Istituzioni
- arXiv