ARTFEED — Contemporary Art Intelligence

Variabilità degli LLM nello Screening delle Evidenze per Revisioni Sistematiche della Letteratura in Ingegneria del Software

publication · 2026-05-01

Uno studio pubblicato su arXiv indaga le prestazioni e la variabilità dei Large Language Models (LLM) nello screening degli studi per revisioni sistematiche della letteratura (SLR) in ingegneria del software. La ricerca confronta 12 LLM di OpenAI, Google Gemini, Anthropic e Llama con 4 classificatori classici (Regressione Logistica, Support Vector Classification, Random Forest, Naive Bayes) utilizzando 518 articoli provenienti da 2 SLR reali. Lo studio esamina tre dimensioni: variabilità delle prestazioni degli LLM, impatto dei metadati di input (abstract, titolo, parole chiave) e confronto con i modelli classici. I falsi negativi sono identificati come un rischio chiave che può compromettere la validità della revisione. I risultati mirano a fornire evidenze sul comportamento degli LLM durante lo screening degli studi, un'area con limitata ricerca precedente nonostante la rapida adozione degli LLM.

Fatti principali

  • Lo studio confronta 12 LLM di 4 fornitori: OpenAI, Google Gemini, Anthropic, Llama
  • I classificatori classici includono Regressione Logistica, Support Vector Classification, Random Forest, Naive Bayes
  • Il dataset è composto da 518 articoli provenienti da 2 revisioni sistematiche della letteratura reali
  • Si concentra sulla fase di screening degli studi nelle SLR di ingegneria del software
  • Esamina l'impatto dei metadati di input: abstract, titolo, parole chiave
  • I falsi negativi sono asimmetrici in termini di rischio e possono compromettere la validità
  • Esistono evidenze limitate sul comportamento degli LLM durante lo screening
  • Pubblicato su arXiv con ID 2604.27006

Entità

Istituzioni

  • OpenAI
  • Google Gemini
  • Anthropic
  • Llama
  • arXiv

Fonti