Sparse MERIT: Apprendimento Multi-Task per il Miglioramento del Parlato e il Riconoscimento delle Emozioni

ai-technology · 2026-04-30

Un nuovo framework di apprendimento multi-task chiamato Sparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT) è stato proposto per ottimizzare congiuntamente il miglioramento del parlato (SE) e il riconoscimento delle emozioni dal parlato (SER). L'approccio affronta il degrado delle prestazioni di SER in condizioni rumorose e gli artefatti introdotti da SE. Sparse MERIT utilizza un routing esperto a livello di frame su rappresentazioni vocali auto-supervisionate, con reti di gating specifiche per compito che selezionano da un pool condiviso di esperti. Ciò consente un'integrazione flessibile ed efficiente in termini di parametri, mitigando l'interferenza del gradiente e i conflitti rappresentazionali comuni nei modelli tradizionali a backbone condiviso. Il metodo è dettagliato in un articolo su arXiv (2509.08470).

Fatti principali

Sparse MERIT è un framework di apprendimento multi-task per SE e SER.
Utilizza un routing esperto a livello di frame su rappresentazioni vocali auto-supervisionate.
Reti di gating specifiche per compito selezionano dinamicamente esperti da un pool condiviso.
Affronta l'interferenza del gradiente e i conflitti rappresentazionali.
L'approccio è efficiente in termini di parametri e flessibile.
Le prestazioni di SER degradano in condizioni rumorose.
SE può introdurre artefatti che oscurano i segnali emotivi.
L'articolo è disponibile su arXiv con ID 2509.08470.

Sparse MERIT: Apprendimento Multi-Task per il Miglioramento del Parlato e il Riconoscimento delle Emozioni

Fatti principali

Entità

Istituzioni

Fonti