AudioMosaic: Apprendimento SSL Audio Contrastivo con Spettrogrammi Maschera
I ricercatori introducono AudioMosaic, un metodo di apprendimento auto-supervisionato contrastivo per la rappresentazione audio. Costruisce coppie positive tramite mascheramento strutturato tempo-frequenza su patch di spettrogrammi, consentendo un addestramento efficiente con batch di grandi dimensioni. L'encoder apprende rappresentazioni discriminative a livello di enunciato che si trasferiscono bene tra dataset e condizioni, superando gli approcci generativi negli esperimenti.
Fatti principali
- 1. AudioMosaic è un encoder audio basato su apprendimento contrastivo per la comprensione audio generale.
- 2. Utilizza il mascheramento strutturato tempo-frequenza su patch di spettrogrammi per creare coppie positive.
- 3. Il metodo riduce l'uso di memoria e consente un addestramento efficiente con batch di grandi dimensioni.
- 4. Apprende rappresentazioni più discriminative a livello di enunciato rispetto agli approcci generativi.
- 5. Le rappresentazioni mostrano una forte trasferibilità tra dataset, domini e condizioni acustiche.
- 6. Esperimenti approfonditi dimostrano la sua efficacia.
- 7. L'articolo è disponibile su arXiv con ID 2605.14231.
- 8. L'approccio affronta sfide nell'SSL audio contrastivo come la progettazione dell'aumento e la dimensione del batch.
Entità
Istituzioni
- arXiv