PSI-Bench: Nuovo framework valuta simulatori di pazienti depressi
Un team di ricercatori ha presentato PSI-Bench, un sistema di valutazione automatico progettato per la valutazione clinicamente rilevante e interpretabile dei simulatori di pazienti depressi. Questo framework mira a superare le carenze delle valutazioni esistenti che si basano su giudici LLM con prompt vaghi e non misurano efficacemente la diversità comportamentale. PSI-Bench offre diagnostica a livello di turno, dialogo e popolazione. Nel confrontare sette LLM su due framework di simulazione, i risultati hanno indicato che i simulatori tendono a generare risposte eccessivamente lunghe e lessicalmente varie, mostrano una variabilità ridotta, risolvono le emozioni troppo rapidamente e aderiscono a una traiettoria negativa coerente. L'iniziativa mira a migliorare la formazione in salute mentale facilitando simulazioni di pazienti più autentiche e varie.
Fatti principali
- PSI-Bench è un framework di valutazione automatico per simulatori di pazienti depressi.
- Fornisce diagnostica interpretabile e clinicamente fondata.
- La valutazione copre dimensioni a livello di turno, dialogo e popolazione.
- Sette LLM sono stati confrontati su due framework di simulazione.
- I simulatori producono risposte eccessivamente lunghe e lessicalmente varie.
- I simulatori mostrano una variabilità ridotta nel comportamento.
- Le emozioni vengono risolte troppo rapidamente nelle simulazioni.
- I simulatori seguono una traiettoria negativa uniforme.
Entità
—