Scaling dei Dati Sintetici per Modelli Linguistici Parlati a Basse Risorse
Un nuovo articolo su arXiv (2605.27383) identifica il Gap Stabilità-Espressività nei Modelli Linguistici Parlati (SLM) per lingue a basse risorse: i dati sintetici migliorano l'accuratezza fonetica ma sopprimono la variabilità prosodica, causando Erosione Sintetica. Gli autori propongono il Disentanglement-Guided Self-Alignment (DGSA) per recuperare l'espressività tramite la separazione prosodia-timbro. Il lavoro si concentra su regimi in cui i dati autentici sono scarsi.
Fatti principali
- ID articolo arXiv: 2605.27383
- Tipo di annuncio: cross
- Identifica il Gap Stabilità-Espressività negli SLM
- I dati sintetici causano Erosione Sintetica dell'espressività
- Propone il framework DGSA per la separazione prosodia-timbro
- Si concentra su lingue a basse risorse
- I dati sintetici sono la principale strategia di scaling
- Obiettivo: colmare il divario tra stabilità ed espressività
Entità
Istituzioni
- arXiv