Audit di Affidabilità dei LLM per i Punteggi di Rischio di Ricovero Psichiatrico
Uno studio recente introduce un metodo strutturato per valutare l'affidabilità dei grandi modelli linguistici (LLM) in applicazioni cliniche, concentrandosi sulla previsione del rischio di ricovero in psichiatria. Questa ricerca, disponibile su arXiv (2604.22063), affronta questioni relative al bias algoritmico e alla sensibilità ai prompt nei LLM utilizzati per il processo decisionale clinico. I ricercatori creano un insieme di 50 profili di pazienti sintetici, ciascuno con 15 caratteristiche cliniche significative e fino a 50 irrilevanti, per analizzare l'impatto del design del prompt e degli input non medici sulle previsioni del rischio di ricovero. L'obiettivo di questo studio è stabilire un quadro per valutare l'affidabilità dei LLM in aree psichiatriche cruciali dove l'affidabilità interpretativa è incerta.
Fatti principali
- Il paper arXiv 2604.22063 propone un audit di affidabilità per compiti a valle dei LLM in psichiatria.
- Si concentra sui punteggi di rischio di ricovero generati dai LLM come primo compito a valle di decisione clinica basata su AI.
- Utilizza una coorte di 50 profili di pazienti sintetici con 15 caratteristiche clinicamente rilevanti e fino a 50 clinicamente insignificanti.
- Valuta l'impatto del design del prompt e dell'inclusione di input medicalmente insignificanti sui punteggi di rischio.
- Affronta lavori precedenti sui bias algoritmici e la sensibilità ai prompt nei LLM.
Entità
Istituzioni
- arXiv