La distillazione CoT in ambito medico migliora le risposte ma peggiora il ragionamento
Una recente indagine pubblicata su arXiv indica che l'impiego della distillazione chain-of-thought (CoT) nel question-answering medico può migliorare l'accuratezza delle risposte finali, ma a scapito della correttezza fattuale della traccia di ragionamento. Lo studio ha coinvolto la distillazione di un modello studente Qwen3-8B da un modello insegnante della famiglia DeepSeek-V3, successivamente valutato utilizzando MedQA-USMLE. Il modello studente ha mostrato un'accuratezza migliorata delle risposte, passando dal 74,7% all'84,4% (SC@64), e una migliore calibrazione, con ECE diminuito da 0,096 a 0,034. Al contrario, un audit condotto da un giudice LLM cieco con Kimi-K2.6 ha rivelato un aumento dei tassi di errore per i passaggi non astenuti, dal 30,6% al 50,3%. Questa correlazione inversa tra qualità della risposta e correttezza fattuale della traccia è stata coerente attraverso vari valutatori, scale degli studenti, punti di forza degli insegnanti, benchmark medici e controlli, mettendo in discussione l'idea che la distillazione migliori entrambe le metriche.
Fatti principali
- Studente Qwen3-8B distillato da insegnante della famiglia DeepSeek-V3
- Accuratezza MedQA-USMLE SC@64 migliorata dal 74,7% all'84,4%
- ECE migliorato da 0,096 a 0,034
- Tasso di errore sui passaggi non astenuti aumentato dal 30,6% al 50,3%
- Audit eseguito dal giudice LLM style-blind Kimi-K2.6
- Pattern confermato attraverso molteplici valutatori e scale di modelli
- Studio condotto su benchmark medici di QA
- ID articolo arXiv: 2605.28301
Entità
Istituzioni
- arXiv