Sparse MERIT: Apprendimento Multi-Task per il Miglioramento del Parlato e il Riconoscimento delle Emozioni
Un nuovo framework di apprendimento multi-task chiamato Sparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT) è stato proposto per ottimizzare congiuntamente il miglioramento del parlato (SE) e il riconoscimento delle emozioni dal parlato (SER). L'approccio affronta il degrado delle prestazioni di SER in condizioni rumorose e gli artefatti introdotti da SE. Sparse MERIT utilizza un routing esperto a livello di frame su rappresentazioni vocali auto-supervisionate, con reti di gating specifiche per compito che selezionano da un pool condiviso di esperti. Ciò consente un'integrazione flessibile ed efficiente in termini di parametri, mitigando l'interferenza del gradiente e i conflitti rappresentazionali comuni nei modelli tradizionali a backbone condiviso. Il metodo è dettagliato in un articolo su arXiv (2509.08470).
Fatti principali
- Sparse MERIT è un framework di apprendimento multi-task per SE e SER.
- Utilizza un routing esperto a livello di frame su rappresentazioni vocali auto-supervisionate.
- Reti di gating specifiche per compito selezionano dinamicamente esperti da un pool condiviso.
- Affronta l'interferenza del gradiente e i conflitti rappresentazionali.
- L'approccio è efficiente in termini di parametri e flessibile.
- Le prestazioni di SER degradano in condizioni rumorose.
- SE può introdurre artefatti che oscurano i segnali emotivi.
- L'articolo è disponibile su arXiv con ID 2509.08470.
Entità
Istituzioni
- arXiv