LLM-as-a-Judge in Sanità: Revisione Sistematica Rivela Lacune nella Validazione
Una recente revisione sistematica incentrata su LLM-as-a-Judge (LaaJ) nel settore sanitario è stata pubblicata su arXiv, comprendendo 49 studi provenienti da sei database tra gennaio 2020 e gennaio 2026, dopo aver esaminato 11.727 record. I risultati hanno indicato che la valutazione e il benchmarking erano prevalenti, presenti in 37 studi (75,5%), con punteggio puntuale utilizzato in 42 studi (85,7%) e giudici della famiglia GPT in 36 studi (73,5%). Il rigore della validazione è risultato inadeguato: tra i 36 studi che coinvolgevano partecipanti umani, il numero medio di validatori esperti era solo 3, e 13 studi (26,5%) non ne avevano nessuno. In particolare, 36 studi (73,5%) mancavano di valutazioni del rischio di bias, solo uno (2,0%) affrontava l'equità demografica, e nessuno valutava la stabilità temporale o il contesto del paziente. Anche l'implementazione era limitata, poiché nessuno studio riportava applicazioni cliniche. La revisione propone il framework MedJUDGE per migliorare gli standard di valutazione LaaJ in sanità.
Fatti principali
- Revisione sistematica di LLM-as-a-Judge in sanità pubblicata su arXiv.
- Esaminati 11.727 studi, inclusi 49 da sei database (gen 2020–gen 2026).
- Il 75,5% degli studi si concentrava su valutazione e benchmarking.
- L'85,7% utilizzava punteggio puntuale; il 73,5% usava giudici della famiglia GPT.
- Mediana dei validatori esperti tra i 36 studi con coinvolgimento umano era 3.
- Il 26,5% degli studi non utilizzava validatori umani.
- Il 73,5% degli studi mancava di test sul rischio di bias.
- Solo il 2,0% esaminava l'equità demografica; nessuno valutava stabilità temporale o contesto del paziente.
- Nessuno studio riportava implementazione clinica reale.
- Proposto il framework MedJUDGE per standardizzare la valutazione.
Entità
Istituzioni
- arXiv