MSU-Bench: Nuovo benchmark testa la comprensione di partiture musicali da parte dei LLM
I ricercatori hanno introdotto il Musical Score Understanding Benchmark (MSU-Bench), un dataset curato manualmente progettato per valutare quanto bene i Large Language Models (LLM) e i Vision-Language Models (VLM) comprendono partiture musicali complete. Il benchmark include 1.800 coppie generatrici di domande e risposte tratte da opere di compositori come Bach, Beethoven, Chopin e Debussy, coprendo sia modalità testuali (notazione ABC) che visive (PDF). Le domande sono organizzate in quattro livelli di difficoltà, dalle informazioni di base sull'attacco alla trama e alla forma. Le valutazioni di oltre quindici modelli all'avanguardia in contesti zero-shot e fine-tuned hanno rivelato significativi divari di modalità, prestazioni instabili tra i livelli di difficoltà e sfide nel mantenere una correttezza multilivello. Il fine-tuning ha migliorato sostanzialmente i risultati, ma complessivamente lo studio evidenzia che i modelli attuali faticano ancora nel ragionamento musicale integrato. Il benchmark mira a far progredire la ricerca nell'IA musicale e nella comprensione multimodale.
Fatti principali
- MSU-Bench è un benchmark curato manualmente per la comprensione musicale a livello di partitura.
- Contiene 1.800 coppie generatrici di domande e risposte.
- Sono incluse opere di Bach, Beethoven, Chopin, Debussy e altri.
- Le domande coprono quattro livelli di difficoltà: attacco, ritmo, trama, forma.
- Sono stati valutati oltre quindici LLM e VLM all'avanguardia.
- Sono stati osservati divari di modalità tra input testuali e visivi.
- Il fine-tuning ha migliorato i risultati ma permangono sfide.
- Lo studio è stato pubblicato su arXiv (2511.20697).
Entità
Artisti
- Bach
- Beethoven
- Chopin
- Debussy
Istituzioni
- arXiv