ARTFEED — Contemporary Art Intelligence

Stabilità Semantica nei LLM Clinici: Valutazione della Sensibilità alle Variazioni dei Prompt

ai-technology · 2026-06-01

Un nuovo studio da arXiv (2605.30646) indaga come i Large Language Models (LLM) rispondono a prompt semanticamente equivalenti ma linguisticamente variati in contesti clinici. I ricercatori propongono un framework di verifica semantica che utilizza l'Inferenza del Linguaggio Naturale (NLI) per filtrare variazioni di prompt che preservano il significato, perfezionato da un LLM-as-a-judge e verificato da un esperto clinico. Introducono tre metriche: Sensibilità alle Variazioni che Preservano il Significato (MVS), variazione della confidenza e altre per quantificare la sensibilità del modello. Il lavoro evidenzia i rischi in ambito sanitario dove una riformulazione sottile può alterare le previsioni, sottolineando la necessità di metodi di valutazione robusti.

Fatti principali

  • Articolo arXiv 2605.30646
  • LLM utilizzati in applicazioni cliniche
  • Framework di verifica semantica basato su NLI
  • Perfezionamento LLM-as-a-judge
  • Verifica da parte di un esperto clinico
  • Tre metriche: MVS, variazione della confidenza, ecc.
  • Focus su contesti sanitari critici per la sicurezza
  • Affronta i limiti della similarità basata su embedding

Entità

Istituzioni

  • arXiv

Fonti