Strategie di Prompt per LLM nella Codifica Qualitativa in Ingegneria del Software

ai-technology · 2026-05-11

È stato condotto uno studio empirico per valutare tre grandi modelli linguistici—Claude Haiku, DeepSeek-Chat e Gemini 2.5 Flash—concentrandosi sulla loro capacità di codificare qualitativamente la sicurezza psicologica all'interno delle comunità di ingegneria del software. Questa ricerca confronta metodi di prompt engineering zero-shot e multi-shot, utilizzando il kappa di Cohen come metrica di concordanza su dieci configurazioni indipendenti. I risultati rivelano che il prompting multi-shot migliora notevolmente la concordanza per Claude Haiku (Delta kappa = +0,034). Lo studio sottolinea la capacità degli LLM di supportare l'analisi qualitativa, evidenziando al contempo l'importanza della sensibilità nella progettazione dei prompt e la necessità di riproducibilità nel ragionamento simile a quello umano.

Fatti principali

Lo studio valuta tre LLM: Claude Haiku, DeepSeek-Chat, Gemini 2.5 Flash
Confronta strategie di prompt engineering zero-shot e multi-shot
Utilizza il kappa di Cohen come metrica primaria di concordanza
Dieci esecuzioni indipendenti per configurazione
Il prompting multi-shot migliora la concordanza per Claude Haiku (Delta kappa = +0,034)
Si concentra sulla codifica qualitativa della sicurezza psicologica nelle comunità di ingegneria del software
Pubblicato su arXiv con ID 2605.07422
Evidenzia la sensibilità degli LLM alla progettazione dei prompt

Strategie di Prompt per LLM nella Codifica Qualitativa in Ingegneria del Software

Fatti principali

Entità

Istituzioni

Fonti