IndicMedDialog: Dataset multilingue di dialoghi medici per le lingue indiche
IndicMedDialog ha lanciato un dataset multilingue di dialoghi medici che include l'inglese e nove lingue indiche. Questo dataset estende il già esistente MDDial incorporando consultazioni sintetiche generate tramite modelli linguistici di grandi dimensioni. Le traduzioni sono state effettuate utilizzando TranslateGemma e verificate da parlanti nativi. È stata impiegata una pipeline di post-elaborazione sensibile alla scrittura per correggere eventuali errori. Inoltre, IndicMedLM è stato messo a punto tramite adattamento parametrico efficiente e consente l'inclusione opzionale del contesto pre-paziente. Le prestazioni del modello sono state valutate rispetto a baseline multilingue zero-shot, dimostrando i suoi progressi nella tecnologia AI per la comunicazione sanitaria.
Fatti principali
- Il dataset copre l'inglese e nove lingue indiche
- Estende MDDial con consultazioni sintetiche generate da LLM
- Traduzioni effettuate utilizzando TranslateGemma
- Parlanti nativi hanno verificato le traduzioni
- Pipeline di post-elaborazione sensibile alla scrittura corregge gli errori
- IndicMedLM messo a punto tramite adattamento parametrico efficiente
- Il modello incorpora contesto pre-paziente opzionale
- Valutato rispetto a baseline multilingue zero-shot
Entità
—