Studio rileva che i modelli audio-linguistici non utilizzano il contesto clinico per il riconoscimento del linguaggio disartrico

ai-technology · 2026-05-06

Un nuovo studio pubblicato su arXiv (2605.02782) rivela che gli attuali modelli audio-linguistici non sfruttano efficacemente il contesto clinico multimodale per migliorare il riconoscimento automatico del parlato (ASR) per il linguaggio disartrico. I ricercatori hanno introdotto un benchmark utilizzando il dataset Speech Accessibility Project (SAP), testando se etichette diagnostiche, valutazioni del parlato derivate da clinici e descrizioni cliniche dettagliate migliorano l'accuratezza della trascrizione. Su nove modelli, hanno scoperto che i prompt basati sulla diagnosi e quelli clinicamente dettagliati hanno prodotto miglioramenti trascurabili e spesso hanno peggiorato il tasso di errore delle parole. Lo studio ha anche esplorato il fine-tuning dipendente dal contesto con adattamento LoRA utilizzando una miscela di formati di prompt clinici, ottenendo una riduzione del tasso di errore delle parole. I risultati evidenziano la fragilità dei sistemi ASR per il parlato atipico e la necessità di una migliore integrazione del contesto clinico.

Fatti principali

Lo studio testa nove modelli audio-linguistici sul riconoscimento del linguaggio disartrico
Utilizza il dataset Speech Accessibility Project (SAP)
Il contesto clinico include etichette diagnostiche, valutazioni del parlato e descrizioni
I modelli attuali non utilizzano significativamente il contesto clinico
I prompt basati sulla diagnosi producono miglioramenti trascurabili
I prompt clinicamente dettagliati spesso peggiorano il tasso di errore delle parole
L'adattamento LoRA con prompt clinici misti riduce il WER
Pubblicato su arXiv con ID 2605.02782

Studio rileva che i modelli audio-linguistici non utilizzano il contesto clinico per il riconoscimento del linguaggio disartrico

Fatti principali

Entità

Istituzioni

Fonti