Studio Rivela Pregiudizi e Inaffidabilità nei Sistemi LLM-come-Giudice per l'Ingegneria del Software
Un nuovo documento di ricerca esamina l'uso dei Large Language Model come valutatori per artefatti di codice nei flussi di lavoro dell'ingegneria del software. Lo studio, pubblicato su arXiv con identificatore 2604.16790v1, indaga i sistemi LLM-giudice che classificano soluzioni candidate e guidano la selezione di patch quando la revisione umana o la copertura dei test sono insufficienti. I ricercatori hanno analizzato due regimi di giudizio puntuale attraverso molteplici compiti, inclusi generazione di codice, riparazione di codice e generazione di test. Il documento esamina sistematicamente i pregiudizi indotti dai prompt, rivelando che valutazioni ripetute di casi identici spesso producono risultati contrastanti. Piccole modifiche ai prompt possono alterare drasticamente gli esiti, mentre perturbazioni semantiche apparentemente equivalenti suscitano verdeti divergenti. Questo approccio di misurazione evidenzia la mancanza di quadri di affidabilità principiati nelle pratiche attuali, nonostante la scalabilità attraente della valutazione basata su LLM. Lo studio considera i livelli di difficoltà attraverso esecuzioni ripetute e impiega interventi controllati sui prompt per isolare specifici segnali di presentazione. Man mano che i LLM diventano sempre più integrati nei flussi di lavoro agentici dell'ingegneria del software, comprendere questi pregiudizi diventa cruciale per sviluppare sistemi di valutazione più affidabili.
Fatti principali
- I Large Language Model sono sempre più utilizzati come giudici per valutare artefatti di codice
- LLM-giudice aiuta a classificare soluzioni candidate e guidare la selezione di patch nei flussi di lavoro dell'ingegneria del software
- La pratica attuale manca di un resoconto principiato di affidabilità e pregiudizio
- Valutazioni ripetute dello stesso caso possono essere in disaccordo
- Piccole modifiche ai prompt possono far oscillare gli esiti
- Perturbazioni apparentemente preservanti la semantica possono suscitare verdeti divergenti
- Il documento studia LLM-come-Giudice per il codice attraverso una lente di misurazione
- Analizza due regimi di giudizio puntuale attraverso generazione, riparazione e generazione di test di codice
Entità
Istituzioni
- arXiv