Strategie di Prompt per LLM nella Codifica Qualitativa in Ingegneria del Software
È stato condotto uno studio empirico per valutare tre grandi modelli linguistici—Claude Haiku, DeepSeek-Chat e Gemini 2.5 Flash—concentrandosi sulla loro capacità di codificare qualitativamente la sicurezza psicologica all'interno delle comunità di ingegneria del software. Questa ricerca confronta metodi di prompt engineering zero-shot e multi-shot, utilizzando il kappa di Cohen come metrica di concordanza su dieci configurazioni indipendenti. I risultati rivelano che il prompting multi-shot migliora notevolmente la concordanza per Claude Haiku (Delta kappa = +0,034). Lo studio sottolinea la capacità degli LLM di supportare l'analisi qualitativa, evidenziando al contempo l'importanza della sensibilità nella progettazione dei prompt e la necessità di riproducibilità nel ragionamento simile a quello umano.
Fatti principali
- Lo studio valuta tre LLM: Claude Haiku, DeepSeek-Chat, Gemini 2.5 Flash
- Confronta strategie di prompt engineering zero-shot e multi-shot
- Utilizza il kappa di Cohen come metrica primaria di concordanza
- Dieci esecuzioni indipendenti per configurazione
- Il prompting multi-shot migliora la concordanza per Claude Haiku (Delta kappa = +0,034)
- Si concentra sulla codifica qualitativa della sicurezza psicologica nelle comunità di ingegneria del software
- Pubblicato su arXiv con ID 2605.07422
- Evidenzia la sensibilità degli LLM alla progettazione dei prompt
Entità
Istituzioni
- arXiv