CodeGolf Bench testa LLM su codice conciso in 60 linguaggi
I ricercatori hanno introdotto CodeGolf Bench, un benchmark per valutare la capacità dei modelli linguistici di grandi dimensioni di generare codice conciso in 60 linguaggi di programmazione. Basato sul formato della competizione code golf, che premia soluzioni con il minor numero di caratteri o byte, misura l'efficienza dei LLM nella generazione di codice. A differenza dei benchmark a set fisso, CodeGolf Bench utilizza la piattaforma code.golf per problemi dinamici e baseline umane in tempo reale. Testando nove LLM su compiti in Python e C++, i modelli di ragionamento hanno superato quelli non ragionanti, raggiungendo un miglior percentile medio del 70,97%. Il divario era maggiore in C++, sottolineando l'importanza del ragionamento per linguaggi con sintassi rigorosa. I modelli non ragionanti hanno faticato con l'ottimizzazione in entrambi i linguaggi.
Fatti principali
- CodeGolf Bench è un nuovo benchmark per la generazione di codice conciso da parte dei LLM.
- Copre 60 linguaggi di programmazione.
- Basato su code golf, una competizione per soluzioni con il minor numero di caratteri.
- Utilizza la piattaforma code.golf per problemi dinamici e baseline umane.
- Valutati nove LLM su Python e C++.
- I modelli di ragionamento hanno raggiunto un miglior percentile medio del 70,97%.
- Il divario di prestazioni è più pronunciato in C++.
- I modelli non ragionanti hanno faticato con l'ottimizzazione dell'efficienza.
Entità
—