SpeechParaling-Bench: Nuovo benchmark per la generazione del parlato paralinguistico
Un nuovo benchmark chiamato SpeechParaling-Bench è stato lanciato da ricercatori per valutare la generazione del parlato consapevole degli aspetti paralinguistici nei modelli audio-linguistici di grandi dimensioni (LALM). Questo benchmark aumenta significativamente il numero di caratteristiche da meno di 50 a oltre 100 caratteristiche dettagliate, utilizzando oltre 1.000 query vocali parallele in inglese e cinese. Comprende tre compiti di difficoltà crescente: controllo a grana fine, variazione intra-enunciato e adattamento sensibile al contesto. Per garantire valutazioni accurate, è stata stabilita una pipeline di confronto a coppie, in cui un giudice basato su LALM valuta le risposte candidate rispetto a una baseline fissa, enfatizzando la preferenza relativa anziché il punteggio assoluto per ridurre la soggettività. Questa ricerca è stata pubblicata su arXiv con ID 2604.20842.
Fatti principali
- SpeechParaling-Bench è un benchmark per la generazione del parlato consapevole degli aspetti paralinguistici.
- Copre oltre 100 caratteristiche a grana fine, rispetto a meno di 50 in precedenza.
- Include oltre 1.000 query vocali parallele inglese-cinese.
- Organizzato in tre compiti: controllo a grana fine, variazione intra-enunciato, adattamento sensibile al contesto.
- Utilizza una pipeline di confronto a coppie con un giudice basato su LALM.
- La valutazione si basa sulla preferenza relativa anziché sul punteggio assoluto.
- Mira ad affrontare la soggettività nella valutazione.
- Annunciato su arXiv con ID 2604.20842.
Entità
Istituzioni
- arXiv