Studio rivela che i LLM mancano di empatia e leggibilità in contesti clinici
Un nuovo studio di arXiv (2604.20791) valuta quanto bene i modelli linguistici di grandi dimensioni (LLM) si allineano agli standard di comunicazione clinica. I ricercatori hanno analizzato LLM di uso generale e specializzati in ambito medico su spiegazioni mediche e interazioni reali medico-paziente, misurando fedeltà semantica, leggibilità e risonanza affettiva. I modelli di base hanno mostrato un affetto negativo amplificato (43,14-45,10% molto negativo rispetto al 37,25% dei medici) e una maggiore complessità linguistica (FKGL fino a 17,60 contro 11,50 per i medici). Modelli più grandi come GPT-5 e Claude hanno ottenuto risultati peggiori. I prompt di empatia hanno ridotto la negatività e la complessità del livello scolastico (fino a -6,87 FKGL per GPT-5) ma non hanno migliorato la fedeltà semantica. La riscrittura collaborativa ha ottenuto il miglior allineamento complessivo. Lo studio evidenzia le attuali limitazioni dei LLM nella comunicazione sanitaria.
Fatti principali
- arXiv:2604.20791 valuta i LLM nella comunicazione sanitaria
- I modelli di base mostrano una polarità affettiva amplificata (43,14-45,10% molto negativo contro 37,25%)
- Architetture più grandi (GPT-5, Claude) producono una maggiore complessità linguistica (FKGL fino a 17,60 contro 11,50)
- I prompt orientati all'empatia riducono la negatività estrema e la complessità del livello scolastico (fino a -6,87 FKGL per GPT-5)
- La riscrittura collaborativa produce il più forte allineamento complessivo
- Lo studio analizza fedeltà semantica, leggibilità e risonanza affettiva
- Sono stati testati LLM di uso generale e specializzati in ambito medico
- I prompt di empatia non aumentano significativamente la fedeltà semantica
Entità
Istituzioni
- arXiv