Gli assistenti virtuali AI forniscono informazioni mediche inaccurate nonostante il tono autorevole, rivela uno studio
Ricercatori dell'Università di Tubinga hanno condotto una valutazione approfondita di cinque assistenti virtuali AI—ChatGPT, Gemini, Grok, Meta AI e DeepSeek—riscontrando notevoli inesattezze nelle loro risposte relative alla salute. Su 50 domande mediche, circa il 20% delle risposte è stato classificato come altamente problematico, con la metà considerata problematica e il 30% parzialmente problematica. Grok si è distinto con il 58% delle risposte problematiche, seguito da ChatGPT e Meta AI rispettivamente al 52% e 50%. Gli assistenti virtuali hanno particolarmente faticato con domande riguardanti nutrizione e prestazioni atletiche, incontrando difficoltà con interrogativi aperti, che hanno ricevuto un rating di alto problema del 32%. Pubblicato su BMJ Open, lo studio ha indicato un punteggio di completezza mediana del 40% per i riferimenti scientifici, esortando gli utenti a verificare autonomamente le informazioni sanitarie.
Fatti principali
- Cinque assistenti virtuali AI sono stati testati: ChatGPT, Gemini, Grok, Meta AI e DeepSeek
- I ricercatori hanno posto 50 domande sanitarie attraverso cinque ambiti medici
- Due esperti hanno valutato indipendentemente tutte le risposte
- Quasi il 20% delle risposte era altamente problematico, il 50% problematico, il 30% parzialmente problematico
- Solo due domande su 250 sono state rifiutate dagli assistenti virtuali
- Grok ha ottenuto le prestazioni peggiori con il 58% di risposte problematiche
- Gli assistenti virtuali hanno raggiunto un punteggio di completezza dei riferimenti mediano di appena il 40%
- Studio pubblicato su BMJ Open utilizzando le versioni gratuite di febbraio 2025
Entità
Artisti
- Carsten Eickhoff
Istituzioni
- University of Tübingen
- BMJ Open
- Nature Medicine
- Jama Network Open
- Nature Communications Medicine
- The Conversation
Luoghi
- Tübingen
- Germany