I LLM superano i professionisti della salute mentale nella diagnosi dei disturbi di personalità
Un recente studio disponibile su arXiv valuta la precisione diagnostica dei grandi modelli linguistici (LLM) rispetto a quella degli esperti di salute mentale nell'identificare i disturbi borderline (BPD) e narcisistico (NPD) di personalità attraverso narrazioni in prima persona in polacco. I modelli Gemini Pro hanno raggiunto un punteggio diagnostico del 65,48%, superando il punteggio umano medio del 43,57% di 21,91 punti percentuali. Mentre sia i LLM che i valutatori umani erano abili nel riconoscere il BPD (F1 = 83,4 per i modelli e 80,0 per gli umani), i modelli hanno sottostimato significativamente il NPD (F1 = 6,7 rispetto a 50,0), indicando una esitazione nell'uso del termine "narcisismo". I modelli hanno fornito giustificazioni dettagliate basate su pattern, mentre i professionisti umani hanno offerto valutazioni più sfumate, sollevando preoccupazioni sull'affidabilità dei LLM nell'autovalutazione psichiatrica.
Fatti principali
- 1. Lo studio confronta LLM e professionisti della salute mentale nella diagnosi di BPD e NPD
- 2. Utilizza resoconti autobiografici in prima persona in lingua polacca
- 3. I migliori modelli Gemini Pro hanno ottenuto il 65,48%, gli umani il 43,57%
- 4. Sia i modelli che gli umani hanno eccelso nel BPD (F1 = 83,4 vs. 80,0)
- 5. I modelli hanno sottodiagnosticato il NPD (F1 = 6,7 vs. 50,0)
- 6. I modelli hanno mostrato una potenziale riluttanza verso il termine 'narcisismo'
- 7. I modelli hanno fornito giustificazioni sicure e focalizzate sui pattern
- 8. Pubblicato su arXiv con identificatore 2512.20298
Entità
Istituzioni
- arXiv