Quadro di miglioramento della sicurezza per agenti AI medici

other · 2026-05-12

Un nuovo studio propone ARSM-Agent, un quadro di miglioramento della sicurezza a collegamento completo per agenti intelligenti basati su grandi modelli linguistici avversarialmente robusti nel processo decisionale medico. Il quadro include le fasi: percezione del rischio in input, vincolo delle prove mediche, verifica della coerenza della conoscenza, riponderazione della fiducia decisionale, controllo dell'output di sicurezza e aggiornamento del feedback avversariale. L'obiettivo congiunto ponderato combina la perdita di accuratezza decisionale (0,3), la perdita di robustezza avversariale (0,3), la perdita di rifiuto di sicurezza (0,2) e la perdita di coerenza della conoscenza (0,2). L'algoritmo supera quattro baseline (LLM-Agent, Retrieval-Agent, Filter-Agent, Adv-Train-Agent) sotto perturbazione semantica, iniezione di prompt, confusione di nomi di farmaci e attacchi di false prove. La ricerca è pubblicata su arXiv (2605.08257).

Fatti principali

ARSM-Agent è un quadro di miglioramento della sicurezza a collegamento completo per agenti AI medici.
Il quadro include sei fasi: percezione del rischio in input, vincolo delle prove mediche, verifica della coerenza della conoscenza, riponderazione della fiducia decisionale, controllo dell'output di sicurezza e aggiornamento del feedback avversariale.
Obiettivo congiunto ponderato: perdita di accuratezza decisionale (0,3), perdita di robustezza avversariale (0,3), perdita di rifiuto di sicurezza (0,2), perdita di coerenza della conoscenza (0,2).
Supera LLM-Agent, Retrieval-Agent, Filter-Agent e Adv-Train-Agent.
Testato sotto perturbazione semantica, iniezione di prompt, confusione di nomi di farmaci e attacchi di false prove.
Pubblicato su arXiv con ID 2605.08257.

Quadro di miglioramento della sicurezza per agenti AI medici

Fatti principali

Entità

Istituzioni

Fonti