Discrete Audio and Speech Benchmark (DASB) Introdotto per Valutare le Prestazioni dei Token Audio
Un nuovo framework, noto come Discrete Audio and Speech Benchmark (DASB), è stato introdotto per affrontare le pratiche di valutazione incoerenti nella ricerca sui token audio discreti. Questi token rappresentano un metodo promettente per collegare l'elaborazione audio con i modelli linguistici, consentendo ai sistemi multimodali di generare e comprendere contenuti audio. Tuttavia, sorgono sfide nel preservare informazioni vitali come dettagli fonetici, caratteristiche del parlante e tratti paralinguistici. Il benchmark valuta l'efficacia dei token attraverso discorso, audio generale e musica, sia con compiti discriminativi che generativi. I risultati mostrano che le rappresentazioni discrete sono generalmente meno robuste delle loro controparti continue e richiedono un'attenta regolazione dell'architettura del modello, della dimensione dei dati, dei tassi di apprendimento e della capacità. I token semantici generalmente superano altri metodi. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2406.14294v3 sotto il tipo di annuncio replace-cross.
Fatti principali
- Discrete Audio and Speech Benchmark (DASB) introdotto come framework di valutazione completo
- I token audio discreti collegano l'elaborazione audio e linguistica per modelli multimodali
- Preservare il contenuto fonetico, l'identità del parlante e i segnali paralinguistici rimane una sfida
- Il benchmark affronta le impostazioni di valutazione incoerenti tra gli studi esistenti
- Valuta i token attraverso i domini del discorso, dell'audio generale e della musica
- Testa sia compiti discriminativi che generativi
- Le rappresentazioni discrete risultano meno robuste di quelle continue
- Richiede un'attenta regolazione dell'architettura del modello, della dimensione dei dati, del tasso di apprendimento e della capacità
Entità
Istituzioni
- arXiv