MedFact: Benchmark cinese per il fact-checking medico dei LLM
MedFact è stato sviluppato da ricercatori come benchmark per valutare le capacità di fact-checking dei grandi modelli linguistici (LLM) specificamente per la letteratura medica cinese. Questo dataset include 2.116 istanze annotate da esperti in vari contesti reali, coprendo 13 specialità mediche, 8 tipi di errori, 4 stili di scrittura e 5 livelli di difficoltà. È stata impiegata una combinazione di AI e input umano, con feedback iterativo da parte di esperti, per mantenere un'alta qualità. Valutando 20 LLM di spicco, è emerso che, sebbene questi modelli possano identificare errori, spesso non riescono a localizzarli con precisione, e i migliori modelli non raggiungono la precisione umana. Inoltre, la ricerca ha scoperto una tendenza dei modelli a etichettare erroneamente informazioni accurate come false.
Fatti principali
- 1. MedFact è un benchmark cinese per il fact-checking medico.
- 2. Contiene 2.116 istanze annotate da esperti.
- 3. Copre 13 specialità, 8 tipi di errori, 4 stili di scrittura e 5 livelli di difficoltà.
- 4. La costruzione ha utilizzato un framework ibrido AI-umano.
- 5. 20 LLM leader sono stati valutati su classificazione di veridicità e localizzazione degli errori.
- 6. I modelli spesso rilevano errori ma faticano a localizzarli con precisione.
- 7. I migliori risultati sono inferiori alle prestazioni umane.
- 8. Fenomeno di 'ipercritica': i modelli identificano erroneamente informazioni corrette come errate.
Entità
—