La classifica Open ASR aggiunge dataset privati per contrastare il benchmaxxing
La classifica Open ASR, lanciata a settembre 2023 e visitata oltre 710.000 volte, ha introdotto dataset privati di Appen Inc. e DataoceanAI per mitigare il benchmaxxing e la contaminazione dei set di test. Questi dataset ASR di alta qualità in inglese coprono discorsi scriptati e conversazionali con diversi accenti. Per prevenire lo sfruttamento, i dataset sono mantenuti privati e il WER medio predefinito della classifica rimane calcolato solo su dataset pubblici, con un'opzione facoltativa per includere dati privati. La classifica enfatizza la standardizzazione attraverso un normalizzatore basato su Whisper che rimuove punteggiatura e maiuscole e mappa all'ortografia americana, e l'apertura tramite codice UI e script di valutazione open-source. Nuove metriche includono medie macro per discorsi scriptati, conversazionali, accenti statunitensi e non statunitensi, senza fornire punteggi per singola suddivisione per scoraggiare l'ottimizzazione. I modelli possono essere inviati tramite pull request su GitHub, con risultati verificati su set pubblici e metriche private calcolate separatamente. L'iniziativa mira a fornire una visione più olistica delle prestazioni ASR, riconoscendo che nessun singolo modello eccelle in tutte le dimensioni. I piani futuri includono valutazioni che riflettono condizioni reali di rumore.
Fatti principali
- Classifica Open ASR lanciata a settembre 2023.
- Oltre 710.000 visite dal lancio.
- Aggiunti dataset privati di Appen Inc. e DataoceanAI.
- I dataset coprono discorsi scriptati e conversazionali, con diversi accenti.
- Dataset privati mantenuti per prevenire il benchmaxxing.
- WER medio predefinito utilizza solo dataset pubblici.
- Opzione per includere dataset privati.
- Normalizzatore basato su Whisper rimuove punteggiatura/maiuscole, mappa all'ortografia americana.
- Codice UI e script di valutazione open-source.
- Nuove metriche: Media Scriptata, Media Conversazionale, Media US, Media non-US.
- Nessun punteggio per singola suddivisione per evitare ottimizzazione.
- Invio modelli tramite pull request su GitHub.
- Risultati verificati su set pubblici, metriche private calcolate separatamente.
- Valutazioni future per condizioni reali di rumore.
Entità
Istituzioni
- Open ASR Leaderboard
- Hugging Face
- Appen Inc.
- DataoceanAI
- GitHub
- Whisper