Studio rivela che i LLM mancano di empatia e leggibilità in contesti clinici

ai-technology · 2026-04-24

Un nuovo studio di arXiv (2604.20791) valuta quanto bene i modelli linguistici di grandi dimensioni (LLM) si allineano agli standard di comunicazione clinica. I ricercatori hanno analizzato LLM di uso generale e specializzati in ambito medico su spiegazioni mediche e interazioni reali medico-paziente, misurando fedeltà semantica, leggibilità e risonanza affettiva. I modelli di base hanno mostrato un affetto negativo amplificato (43,14-45,10% molto negativo rispetto al 37,25% dei medici) e una maggiore complessità linguistica (FKGL fino a 17,60 contro 11,50 per i medici). Modelli più grandi come GPT-5 e Claude hanno ottenuto risultati peggiori. I prompt di empatia hanno ridotto la negatività e la complessità del livello scolastico (fino a -6,87 FKGL per GPT-5) ma non hanno migliorato la fedeltà semantica. La riscrittura collaborativa ha ottenuto il miglior allineamento complessivo. Lo studio evidenzia le attuali limitazioni dei LLM nella comunicazione sanitaria.

Fatti principali

arXiv:2604.20791 valuta i LLM nella comunicazione sanitaria
I modelli di base mostrano una polarità affettiva amplificata (43,14-45,10% molto negativo contro 37,25%)
Architetture più grandi (GPT-5, Claude) producono una maggiore complessità linguistica (FKGL fino a 17,60 contro 11,50)
I prompt orientati all'empatia riducono la negatività estrema e la complessità del livello scolastico (fino a -6,87 FKGL per GPT-5)
La riscrittura collaborativa produce il più forte allineamento complessivo
Lo studio analizza fedeltà semantica, leggibilità e risonanza affettiva
Sono stati testati LLM di uso generale e specializzati in ambito medico
I prompt di empatia non aumentano significativamente la fedeltà semantica

Studio rivela che i LLM mancano di empatia e leggibilità in contesti clinici

Fatti principali

Entità

Istituzioni

Fonti