LLM su Dispositivo Valutati per il Supporto alle Decisioni Cliniche
Uno studio recente indaga l'efficacia dei modelli linguistici di grandi dimensioni (LLM) su dispositivo nell'assistere le decisioni cliniche, confrontando modelli proprietari con alternative open-source. Esamina una gamma di modelli, tra cui gpt-oss con 20B e 120B parametri, Qwen3.5 con versioni da 9B a 35B, e Gemma 4 a 31B. La ricerca si concentra su tre aree cliniche specifiche: diagnosi generale di malattie, problemi oculari e simulazione di valutazione esperta. Le metriche di performance vengono confrontate con modelli proprietari come GPT-5.1 e Gemini 3.1 Pro. Inoltre, lo studio discute il potenziale di gpt-oss-20B e Qwen3.5-35B per la diagnostica generale in cliniche con risorse limitate.
Fatti principali
- Lo studio valuta LLM su dispositivo per il supporto alle decisioni cliniche
- Valutati modelli delle famiglie gpt-oss, Qwen3.5 e Gemma 4
- Tre compiti clinici: diagnosi generale, oftalmologia, simulazione di valutazione esperta
- Confronto con GPT-5.1, GPT-5-mini, Gemini 3.1 Pro e DeepSeek-R1
- Fine-tuning di gpt-oss-20b e Qwen3.5-35B su dati diagnostici generali
- Affronta problemi di privacy e infrastruttura cloud
- Obiettivo: abilitare inferenza locale in contesti con risorse limitate
- Pubblicato su arXiv con ID 2601.03266
Entità
Istituzioni
- arXiv