AudioMosaic: Apprendimento SSL Audio Contrastivo con Spettrogrammi Maschera

ai-technology · 2026-05-16

I ricercatori introducono AudioMosaic, un metodo di apprendimento auto-supervisionato contrastivo per la rappresentazione audio. Costruisce coppie positive tramite mascheramento strutturato tempo-frequenza su patch di spettrogrammi, consentendo un addestramento efficiente con batch di grandi dimensioni. L'encoder apprende rappresentazioni discriminative a livello di enunciato che si trasferiscono bene tra dataset e condizioni, superando gli approcci generativi negli esperimenti.

Fatti principali

1. AudioMosaic è un encoder audio basato su apprendimento contrastivo per la comprensione audio generale.
2. Utilizza il mascheramento strutturato tempo-frequenza su patch di spettrogrammi per creare coppie positive.
3. Il metodo riduce l'uso di memoria e consente un addestramento efficiente con batch di grandi dimensioni.
4. Apprende rappresentazioni più discriminative a livello di enunciato rispetto agli approcci generativi.
5. Le rappresentazioni mostrano una forte trasferibilità tra dataset, domini e condizioni acustiche.
6. Esperimenti approfonditi dimostrano la sua efficacia.
7. L'articolo è disponibile su arXiv con ID 2605.14231.
8. L'approccio affronta sfide nell'SSL audio contrastivo come la progettazione dell'aumento e la dimensione del batch.

AudioMosaic: Apprendimento SSL Audio Contrastivo con Spettrogrammi Maschera

Fatti principali

Entità

Istituzioni

Fonti