Il dataset Benchmarking-Cultures-25 rivela un panorama frammentato della valutazione dell'IA
Uno studio recente ha presentato Benchmarking-Cultures-25, una raccolta open-source che include 231 benchmark provenienti da 139 rilasci di modelli nel 2025, contribuiti da 11 importanti sviluppatori di IA. Secondo la ricerca pubblicata su arXiv, il 63,2% di questi benchmark è utilizzato da un solo costruttore, mentre il 38,5% appare in un unico rilascio, suggerendo una mancanza di comparabilità tra i modelli. Molto pochi benchmark, tra cui GPQA Diamond e LiveCodeBench, godono di un'adozione diffusa. I risultati sottolineano un cambiamento nel modo in cui vengono condivise le capacità dei modelli di IA, con una crescente dipendenza da comunicati stampa e post di blog invece delle tradizionali pubblicazioni peer-reviewed.
Fatti principali
- Il dataset Benchmarking-Cultures-25 include 231 benchmark provenienti da 139 rilasci di modelli nel 2025.
- Il dataset copre 11 importanti costruttori di IA.
- Il 63,2% dei benchmark evidenziati è utilizzato da un singolo costruttore.
- Il 38,5% dei benchmark appare in un solo rilascio.
- GPQA Diamond e LiveCodeBench sono tra i pochi benchmark ampiamente utilizzati.
- Lo studio nota un passaggio dalla letteratura peer-reviewed a comunicati stampa e post di blog per stabilire le competenze dei modelli di IA.
- Il dataset è open-source e include uno strumento di esplorazione interattivo.
- La ricerca è stata pubblicata su arXiv.
Entità
Istituzioni
- arXiv