Scaling dei Dati Sintetici per Modelli Linguistici Parlati a Basse Risorse

ai-technology · 2026-05-28

Un nuovo articolo su arXiv (2605.27383) identifica il Gap Stabilità-Espressività nei Modelli Linguistici Parlati (SLM) per lingue a basse risorse: i dati sintetici migliorano l'accuratezza fonetica ma sopprimono la variabilità prosodica, causando Erosione Sintetica. Gli autori propongono il Disentanglement-Guided Self-Alignment (DGSA) per recuperare l'espressività tramite la separazione prosodia-timbro. Il lavoro si concentra su regimi in cui i dati autentici sono scarsi.

Fatti principali

ID articolo arXiv: 2605.27383
Tipo di annuncio: cross
Identifica il Gap Stabilità-Espressività negli SLM
I dati sintetici causano Erosione Sintetica dell'espressività
Propone il framework DGSA per la separazione prosodia-timbro
Si concentra su lingue a basse risorse
I dati sintetici sono la principale strategia di scaling
Obiettivo: colmare il divario tra stabilità ed espressività

Scaling dei Dati Sintetici per Modelli Linguistici Parlati a Basse Risorse

Fatti principali

Entità

Istituzioni

Fonti