OpenClassGen: 324.843 classi Python per l'addestramento di LLM
OpenClassGen è stato introdotto dai ricercatori come un dataset completo che comprende 324.843 classi Python autentiche provenienti da 2.970 progetti open-source. A differenza di benchmark sintetici come ClassEval, che include 100 classi, e RealClassEval con 400 classi, OpenClassGen offre scheletri di classe completi con firme e docstring, eliminando la necessità di contesto a livello di repository. Ogni classe è corredata da 27 metriche di codice statico che valutano complessità, accoppiamento, coesione ed ereditarietà. Questo dataset è progettato per facilitare una valutazione approfondita e l'addestramento di LLM. Un gruppo selezionato di 300 classi eseguibili è stato utilizzato per valutare GPT-o4-mini, Claude-4-Sonnet e Qwen-3-Coder. Il corpus è accessibile su arXiv.
Fatti principali
- OpenClassGen contiene 324.843 classi Python provenienti da 2.970 progetti open-source.
- Ogni voce include una classe scritta da umani e il suo scheletro con firme e docstring.
- 27 metriche di codice statico sono fornite per ogni classe.
- Benchmark precedenti: ClassEval (100 classi sintetiche) e RealClassEval (400 classi).
- Tre LLM valutati: GPT-o4-mini, Claude-4-Sonnet, Qwen-3-Coder.
- Sottoinsieme di 300 classi eseguibili utilizzato per la valutazione.
- Nessuna risoluzione del contesto a livello di repository necessaria.
- Pubblicato su arXiv con ID 2504.15564.
Entità
—