GaMMA: Un Nuovo Grande Modello Multimodale per la Comprensione Completa della Musica
I ricercatori hanno presentato GaMMA, un modello multimodale di grandi dimensioni (LMM) all'avanguardia progettato per la comprensione completa del contenuto musicale. Basato sull'architettura encoder-decoder LLaVA, GaMMA utilizza encoder audio mixture-of-experts per unificare sia i compiti musicali temporali che non temporali all'interno di un unico set di parametri. Il modello viene addestrato utilizzando un pipeline progressivo che include pre-addestramento, fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL) su dataset su larga scala accuratamente curati. Per valutare le capacità temporali e non temporali, il team ha creato MusicBench, il più grande benchmark orientato alla musica con 3.739 domande a scelta multipla curate da umani. L'articolo è disponibile su arXiv con identificativo 2605.00371.
Fatti principali
- GaMMA è un modello multimodale di grandi dimensioni all'avanguardia per la comprensione della musica.
- Utilizza il design encoder-decoder LLaVA.
- Gli encoder audio mixture-of-experts unificano i compiti temporali e non temporali.
- L'addestramento include pre-addestramento, SFT e RL.
- MusicBench è il più grande benchmark musicale con 3.739 domande.
- L'articolo è su arXiv: 2605.00371.
- GaMMA mira alla comprensione completa del contenuto musicale.
- Il modello consente l'apprendimento cross-modale tra musica e linguaggio.
Entità
Istituzioni
- arXiv