DALPHIN Benchmark Testa i Copiloti AI contro i Patologi
Il recentemente introdotto benchmark aperto, DALPHIN, valuta i copiloti AI in patologia digitale confrontandoli con patologi umani. Questo dataset comprende 1.236 immagini derivate da 300 casi, coprendo 130 diagnosi in 14 sottospecialità e sei paesi. Le prestazioni dei patologi umani sono state valutate con il coinvolgimento di 31 specialisti provenienti da 10 diverse nazioni. Sono stati esaminati tre copiloti AI: GPT-5, Gemini 2.5 Pro e PathChat+. PathChat+ non ha mostrato differenze statisticamente significative rispetto alle prestazioni esperte in quattro dei sei compiti, mentre Gemini ha eguagliato in due e GPT in uno. Il benchmark DALPHIN è ora disponibile al pubblico.
Fatti principali
- —
Entità
—