I LLM superano i professionisti della salute mentale nella diagnosi dei disturbi di personalità

ai-technology · 2026-05-07

Un recente studio disponibile su arXiv valuta la precisione diagnostica dei grandi modelli linguistici (LLM) rispetto a quella degli esperti di salute mentale nell'identificare i disturbi borderline (BPD) e narcisistico (NPD) di personalità attraverso narrazioni in prima persona in polacco. I modelli Gemini Pro hanno raggiunto un punteggio diagnostico del 65,48%, superando il punteggio umano medio del 43,57% di 21,91 punti percentuali. Mentre sia i LLM che i valutatori umani erano abili nel riconoscere il BPD (F1 = 83,4 per i modelli e 80,0 per gli umani), i modelli hanno sottostimato significativamente il NPD (F1 = 6,7 rispetto a 50,0), indicando una esitazione nell'uso del termine "narcisismo". I modelli hanno fornito giustificazioni dettagliate basate su pattern, mentre i professionisti umani hanno offerto valutazioni più sfumate, sollevando preoccupazioni sull'affidabilità dei LLM nell'autovalutazione psichiatrica.

Fatti principali

1. Lo studio confronta LLM e professionisti della salute mentale nella diagnosi di BPD e NPD
2. Utilizza resoconti autobiografici in prima persona in lingua polacca
3. I migliori modelli Gemini Pro hanno ottenuto il 65,48%, gli umani il 43,57%
4. Sia i modelli che gli umani hanno eccelso nel BPD (F1 = 83,4 vs. 80,0)
5. I modelli hanno sottodiagnosticato il NPD (F1 = 6,7 vs. 50,0)
6. I modelli hanno mostrato una potenziale riluttanza verso il termine 'narcisismo'
7. I modelli hanno fornito giustificazioni sicure e focalizzate sui pattern
8. Pubblicato su arXiv con identificatore 2512.20298

I LLM superano i professionisti della salute mentale nella diagnosi dei disturbi di personalità

Fatti principali

Entità

Istituzioni

Fonti