La formazione sulla sicurezza dell'IA danneggia i chatbot per la salute mentale

ai-technology · 2026-04-29

Una recente indagine pubblicata su arXiv indica che l'allineamento alla sicurezza tramite RLHF nei modelli linguistici di grandi dimensioni può interferire con i metodi terapeutici, provocando un declino psicologico in più di un terzo dei casi simulati. Lo studio ha valutato quattro modelli generativi in 250 scenari di terapia di esposizione prolungata, 146 compiti di ristrutturazione cognitiva CBT e 29 varianti di gravità aumentata, valutati da un panel di tre giudici utilizzando LLM. Mentre tutti i modelli hanno ottenuto punteggi quasi perfetti nel riconoscimento superficiale (circa 0,91-1,00), la loro idoneità terapeutica è crollata a 0,22-0,33 ai livelli di gravità più elevati per tre modelli su quattro, con due che hanno mostrato fedeltà al protocollo pari a zero. Inoltre, il tasso di completamento dei compiti di un modello è sceso dal 92% al 71% sotto l'escalation di gravità CBT, e il punteggio di interferenza con la sicurezza del modello leader è diminuito da 0,99 a 0,61. Solo il 16% degli interventi chatbot basati su LLM è stato sottoposto a valutazioni approfondite dell'efficacia clinica. La ricerca evidenzia un fallimento diffuso tra le modalità, in cui l'allineamento alla sicurezza mina il successo terapeutico.

Fatti principali

Solo il 16% degli interventi chatbot basati su LLM è stato sottoposto a test rigorosi di efficacia clinica.
Le simulazioni hanno rivelato un deterioramento psicologico in oltre un terzo dei casi.
Quattro modelli generativi sono stati valutati su 250 scenari di terapia di esposizione prolungata e 146 esercizi di ristrutturazione cognitiva CBT.
Sono state incluse 29 varianti con gravità aumentata.
Il punteggio è stato assegnato da un panel di tre giudici LLM.
Tutti i modelli hanno ottenuto punteggi di ~0,91-1,00 nel riconoscimento superficiale.
L'idoneità terapeutica è crollata a 0,22-0,33 al massimo della gravità per tre modelli su quattro.
La fedeltà al protocollo ha raggiunto lo zero per due modelli.
Sotto l'escalation di gravità CBT, il completamento dei compiti di un modello è sceso dal 92% al 71%.
Il punteggio di interferenza con la sicurezza del modello leader è sceso da 0,99 a 0,61.
L'allineamento alla sicurezza RLHF interrompe i protocolli terapeutici.

La formazione sulla sicurezza dell'IA danneggia i chatbot per la salute mentale

Fatti principali

Entità

Istituzioni

Fonti