Il modello AI di Alibaba domina la classifica di coding, superando OpenAI e Google
Il nuovo modello AI di Alibaba ha ottenuto il punteggio più alto nella classifica Code Arena, superando i rivali di OpenAI e Google. Il gigante tecnologico cinese è l'unica azienda non statunitense tra le prime cinque. Code Arena si differenzia dai benchmark tradizionali come HumanEval o SWE-bench testando i modelli nella creazione di applicazioni web interattive complete da zero basate su prompt degli utenti. Gli utenti votano output anonimi in confronti alla cieca, riflettendo le preferenze reali degli sviluppatori. Il benchmark è gestito da Arena, un'organizzazione fondata da ricercatori di UC Berkeley, UC San Diego e Carnegie Mellon University. Alibaba possiede anche il South China Morning Post.
Fatti principali
- Il nuovo modello AI di Alibaba ha ottenuto il punteggio più alto nella classifica Code Arena.
- Ha superato i modelli di OpenAI e Google.
- Alibaba è l'unica azienda non statunitense tra le prime cinque.
- Code Arena testa i modelli nella creazione di applicazioni web complete da prompt degli utenti.
- Gli utenti votano output anonimi in confronti alla cieca.
- Code Arena è gestita da Arena, fondata da UC Berkeley, UC San Diego e Carnegie Mellon University.
- Alibaba possiede il South China Morning Post.
- I benchmark tradizionali come HumanEval o SWE-bench utilizzano test standardizzati.
Entità
Istituzioni
- Alibaba
- OpenAI
- Code Arena
- Arena
- University of California, Berkeley
- University of California San Diego
- Carnegie Mellon University
- South China Morning Post
Luoghi
- China
- United States