Stabilità Semantica nei LLM Clinici: Valutazione della Sensibilità alle Variazioni dei Prompt

ai-technology · 2026-06-01

Un nuovo studio da arXiv (2605.30646) indaga come i Large Language Models (LLM) rispondono a prompt semanticamente equivalenti ma linguisticamente variati in contesti clinici. I ricercatori propongono un framework di verifica semantica che utilizza l'Inferenza del Linguaggio Naturale (NLI) per filtrare variazioni di prompt che preservano il significato, perfezionato da un LLM-as-a-judge e verificato da un esperto clinico. Introducono tre metriche: Sensibilità alle Variazioni che Preservano il Significato (MVS), variazione della confidenza e altre per quantificare la sensibilità del modello. Il lavoro evidenzia i rischi in ambito sanitario dove una riformulazione sottile può alterare le previsioni, sottolineando la necessità di metodi di valutazione robusti.

Fatti principali

Articolo arXiv 2605.30646
LLM utilizzati in applicazioni cliniche
Framework di verifica semantica basato su NLI
Perfezionamento LLM-as-a-judge
Verifica da parte di un esperto clinico
Tre metriche: MVS, variazione della confidenza, ecc.
Focus su contesti sanitari critici per la sicurezza
Affronta i limiti della similarità basata su embedding

Stabilità Semantica nei LLM Clinici: Valutazione della Sensibilità alle Variazioni dei Prompt

Fatti principali

Entità

Istituzioni

Fonti