LLM-as-a-Judge in Sanità: Revisione Sistematica Rivela Lacune nella Validazione

publication · 2026-04-30

Una recente revisione sistematica incentrata su LLM-as-a-Judge (LaaJ) nel settore sanitario è stata pubblicata su arXiv, comprendendo 49 studi provenienti da sei database tra gennaio 2020 e gennaio 2026, dopo aver esaminato 11.727 record. I risultati hanno indicato che la valutazione e il benchmarking erano prevalenti, presenti in 37 studi (75,5%), con punteggio puntuale utilizzato in 42 studi (85,7%) e giudici della famiglia GPT in 36 studi (73,5%). Il rigore della validazione è risultato inadeguato: tra i 36 studi che coinvolgevano partecipanti umani, il numero medio di validatori esperti era solo 3, e 13 studi (26,5%) non ne avevano nessuno. In particolare, 36 studi (73,5%) mancavano di valutazioni del rischio di bias, solo uno (2,0%) affrontava l'equità demografica, e nessuno valutava la stabilità temporale o il contesto del paziente. Anche l'implementazione era limitata, poiché nessuno studio riportava applicazioni cliniche. La revisione propone il framework MedJUDGE per migliorare gli standard di valutazione LaaJ in sanità.

Fatti principali

Revisione sistematica di LLM-as-a-Judge in sanità pubblicata su arXiv.
Esaminati 11.727 studi, inclusi 49 da sei database (gen 2020–gen 2026).
Il 75,5% degli studi si concentrava su valutazione e benchmarking.
L'85,7% utilizzava punteggio puntuale; il 73,5% usava giudici della famiglia GPT.
Mediana dei validatori esperti tra i 36 studi con coinvolgimento umano era 3.
Il 26,5% degli studi non utilizzava validatori umani.
Il 73,5% degli studi mancava di test sul rischio di bias.
Solo il 2,0% esaminava l'equità demografica; nessuno valutava stabilità temporale o contesto del paziente.
Nessuno studio riportava implementazione clinica reale.
Proposto il framework MedJUDGE per standardizzare la valutazione.

LLM-as-a-Judge in Sanità: Revisione Sistematica Rivela Lacune nella Validazione

Fatti principali

Entità

Istituzioni

Fonti