I LLM di frontiera mostrano alti tassi di chiusura prematura in compiti medici

ai-technology · 2026-05-16

Un nuovo studio su arXiv (2605.15000) esplora il problema della chiusura prematura nei modelli linguistici di grandi dimensioni (LLM) avanzati. Ciò accade quando i modelli si attaccano erroneamente a una risposta invece di scegliere di chiarire o rifiutare. I ricercatori hanno esaminato MedQA (n=500) e AfriMed-QA (n=490), escludendo le risposte corrette, e hanno trovato tassi di falsa azione di base compresi tra il 55-81% per MedQA e il 53-82% per AfriMed-QA. Inoltre, in valutazioni a risposta aperta, i modelli hanno fornito risposte inappropriate per il 30% delle 861 domande di HealthBench e per il 78% delle 191 query avversarie create da medici. Tuttavia, l'uso di prompt orientati alla sicurezza ha contribuito a ridurre il numero di chiusure premature in questi modelli.

Fatti principali

La chiusura prematura è definita come un impegno inappropriato in condizioni di incertezza nei LLM
Cinque LLM di frontiera valutati su MedQA, AfriMed-QA, HealthBench e query avversarie
Tassi di falsa azione di base del 55-81% su MedQA e del 53-82% su AfriMed-QA
Risposte inappropriate sul 30% delle domande di HealthBench e sul 78% delle query avversarie
Il prompting orientato alla sicurezza ha ridotto la chiusura prematura in tutti i modelli

I LLM di frontiera mostrano alti tassi di chiusura prematura in compiti medici

Fatti principali

Entità

Istituzioni

Fonti