Stabilità Semantica nei LLM Clinici: Valutazione della Sensibilità alle Variazioni dei Prompt
Un nuovo studio da arXiv (2605.30646) indaga come i Large Language Models (LLM) rispondono a prompt semanticamente equivalenti ma linguisticamente variati in contesti clinici. I ricercatori propongono un framework di verifica semantica che utilizza l'Inferenza del Linguaggio Naturale (NLI) per filtrare variazioni di prompt che preservano il significato, perfezionato da un LLM-as-a-judge e verificato da un esperto clinico. Introducono tre metriche: Sensibilità alle Variazioni che Preservano il Significato (MVS), variazione della confidenza e altre per quantificare la sensibilità del modello. Il lavoro evidenzia i rischi in ambito sanitario dove una riformulazione sottile può alterare le previsioni, sottolineando la necessità di metodi di valutazione robusti.
Fatti principali
- Articolo arXiv 2605.30646
- LLM utilizzati in applicazioni cliniche
- Framework di verifica semantica basato su NLI
- Perfezionamento LLM-as-a-judge
- Verifica da parte di un esperto clinico
- Tre metriche: MVS, variazione della confidenza, ecc.
- Focus su contesti sanitari critici per la sicurezza
- Affronta i limiti della similarità basata su embedding
Entità
Istituzioni
- arXiv