MedFact: Benchmark cinese per il fact-checking medico dei LLM

other · 2026-06-01

MedFact è stato sviluppato da ricercatori come benchmark per valutare le capacità di fact-checking dei grandi modelli linguistici (LLM) specificamente per la letteratura medica cinese. Questo dataset include 2.116 istanze annotate da esperti in vari contesti reali, coprendo 13 specialità mediche, 8 tipi di errori, 4 stili di scrittura e 5 livelli di difficoltà. È stata impiegata una combinazione di AI e input umano, con feedback iterativo da parte di esperti, per mantenere un'alta qualità. Valutando 20 LLM di spicco, è emerso che, sebbene questi modelli possano identificare errori, spesso non riescono a localizzarli con precisione, e i migliori modelli non raggiungono la precisione umana. Inoltre, la ricerca ha scoperto una tendenza dei modelli a etichettare erroneamente informazioni accurate come false.

Fatti principali

1. MedFact è un benchmark cinese per il fact-checking medico.
2. Contiene 2.116 istanze annotate da esperti.
3. Copre 13 specialità, 8 tipi di errori, 4 stili di scrittura e 5 livelli di difficoltà.
4. La costruzione ha utilizzato un framework ibrido AI-umano.
5. 20 LLM leader sono stati valutati su classificazione di veridicità e localizzazione degli errori.
6. I modelli spesso rilevano errori ma faticano a localizzarli con precisione.
7. I migliori risultati sono inferiori alle prestazioni umane.
8. Fenomeno di 'ipercritica': i modelli identificano erroneamente informazioni corrette come errate.

Entità

—

Fonti

arXiv cs.AI — 2026-06-01