Gli assistenti virtuali AI forniscono informazioni mediche inaccurate nonostante il tono autorevole, rivela uno studio

ai-technology · 2026-04-21

Ricercatori dell'Università di Tubinga hanno condotto una valutazione approfondita di cinque assistenti virtuali AI—ChatGPT, Gemini, Grok, Meta AI e DeepSeek—riscontrando notevoli inesattezze nelle loro risposte relative alla salute. Su 50 domande mediche, circa il 20% delle risposte è stato classificato come altamente problematico, con la metà considerata problematica e il 30% parzialmente problematica. Grok si è distinto con il 58% delle risposte problematiche, seguito da ChatGPT e Meta AI rispettivamente al 52% e 50%. Gli assistenti virtuali hanno particolarmente faticato con domande riguardanti nutrizione e prestazioni atletiche, incontrando difficoltà con interrogativi aperti, che hanno ricevuto un rating di alto problema del 32%. Pubblicato su BMJ Open, lo studio ha indicato un punteggio di completezza mediana del 40% per i riferimenti scientifici, esortando gli utenti a verificare autonomamente le informazioni sanitarie.

Fatti principali

Cinque assistenti virtuali AI sono stati testati: ChatGPT, Gemini, Grok, Meta AI e DeepSeek
I ricercatori hanno posto 50 domande sanitarie attraverso cinque ambiti medici
Due esperti hanno valutato indipendentemente tutte le risposte
Quasi il 20% delle risposte era altamente problematico, il 50% problematico, il 30% parzialmente problematico
Solo due domande su 250 sono state rifiutate dagli assistenti virtuali
Grok ha ottenuto le prestazioni peggiori con il 58% di risposte problematiche
Gli assistenti virtuali hanno raggiunto un punteggio di completezza dei riferimenti mediano di appena il 40%
Studio pubblicato su BMJ Open utilizzando le versioni gratuite di febbraio 2025

Entità

Artisti

Carsten Eickhoff

Istituzioni

University of Tübingen
BMJ Open
Nature Medicine
Jama Network Open
Nature Communications Medicine
The Conversation

Luoghi

Tübingen
Germany

Fonti

Naked Capitalism — 2026-04-21