DALPHIN Benchmark Testa i Copiloti AI contro i Patologi

other · 2026-05-07

Il recentemente introdotto benchmark aperto, DALPHIN, valuta i copiloti AI in patologia digitale confrontandoli con patologi umani. Questo dataset comprende 1.236 immagini derivate da 300 casi, coprendo 130 diagnosi in 14 sottospecialità e sei paesi. Le prestazioni dei patologi umani sono state valutate con il coinvolgimento di 31 specialisti provenienti da 10 diverse nazioni. Sono stati esaminati tre copiloti AI: GPT-5, Gemini 2.5 Pro e PathChat+. PathChat+ non ha mostrato differenze statisticamente significative rispetto alle prestazioni esperte in quattro dei sei compiti, mentre Gemini ha eguagliato in due e GPT in uno. Il benchmark DALPHIN è ora disponibile al pubblico.

DALPHIN Benchmark Testa i Copiloti AI contro i Patologi

Fatti principali

Entità

Fonti