Variabilità degli LLM nello Screening delle Evidenze per Revisioni Sistematiche della Letteratura in Ingegneria del Software

publication · 2026-05-01

Uno studio pubblicato su arXiv indaga le prestazioni e la variabilità dei Large Language Models (LLM) nello screening degli studi per revisioni sistematiche della letteratura (SLR) in ingegneria del software. La ricerca confronta 12 LLM di OpenAI, Google Gemini, Anthropic e Llama con 4 classificatori classici (Regressione Logistica, Support Vector Classification, Random Forest, Naive Bayes) utilizzando 518 articoli provenienti da 2 SLR reali. Lo studio esamina tre dimensioni: variabilità delle prestazioni degli LLM, impatto dei metadati di input (abstract, titolo, parole chiave) e confronto con i modelli classici. I falsi negativi sono identificati come un rischio chiave che può compromettere la validità della revisione. I risultati mirano a fornire evidenze sul comportamento degli LLM durante lo screening degli studi, un'area con limitata ricerca precedente nonostante la rapida adozione degli LLM.

Fatti principali

Lo studio confronta 12 LLM di 4 fornitori: OpenAI, Google Gemini, Anthropic, Llama
I classificatori classici includono Regressione Logistica, Support Vector Classification, Random Forest, Naive Bayes
Il dataset è composto da 518 articoli provenienti da 2 revisioni sistematiche della letteratura reali
Si concentra sulla fase di screening degli studi nelle SLR di ingegneria del software
Esamina l'impatto dei metadati di input: abstract, titolo, parole chiave
I falsi negativi sono asimmetrici in termini di rischio e possono compromettere la validità
Esistono evidenze limitate sul comportamento degli LLM durante lo screening
Pubblicato su arXiv con ID 2604.27006

Entità

Istituzioni

OpenAI
Google Gemini
Anthropic
Llama
arXiv

Fonti

arXiv cs.AI — 2026-05-01