I LLM di frontiera mostrano alti tassi di chiusura prematura in compiti medici
Un nuovo studio su arXiv (2605.15000) esplora il problema della chiusura prematura nei modelli linguistici di grandi dimensioni (LLM) avanzati. Ciò accade quando i modelli si attaccano erroneamente a una risposta invece di scegliere di chiarire o rifiutare. I ricercatori hanno esaminato MedQA (n=500) e AfriMed-QA (n=490), escludendo le risposte corrette, e hanno trovato tassi di falsa azione di base compresi tra il 55-81% per MedQA e il 53-82% per AfriMed-QA. Inoltre, in valutazioni a risposta aperta, i modelli hanno fornito risposte inappropriate per il 30% delle 861 domande di HealthBench e per il 78% delle 191 query avversarie create da medici. Tuttavia, l'uso di prompt orientati alla sicurezza ha contribuito a ridurre il numero di chiusure premature in questi modelli.
Fatti principali
- La chiusura prematura è definita come un impegno inappropriato in condizioni di incertezza nei LLM
- Cinque LLM di frontiera valutati su MedQA, AfriMed-QA, HealthBench e query avversarie
- Tassi di falsa azione di base del 55-81% su MedQA e del 53-82% su AfriMed-QA
- Risposte inappropriate sul 30% delle domande di HealthBench e sul 78% delle query avversarie
- Il prompting orientato alla sicurezza ha ridotto la chiusura prematura in tutti i modelli
Entità
Istituzioni
- arXiv