ARTFEED — Contemporary Art Intelligence

OpenClassGen: 324.843 classi Python per l'addestramento di LLM

ai-technology · 2026-05-01

OpenClassGen è stato introdotto dai ricercatori come un dataset completo che comprende 324.843 classi Python autentiche provenienti da 2.970 progetti open-source. A differenza di benchmark sintetici come ClassEval, che include 100 classi, e RealClassEval con 400 classi, OpenClassGen offre scheletri di classe completi con firme e docstring, eliminando la necessità di contesto a livello di repository. Ogni classe è corredata da 27 metriche di codice statico che valutano complessità, accoppiamento, coesione ed ereditarietà. Questo dataset è progettato per facilitare una valutazione approfondita e l'addestramento di LLM. Un gruppo selezionato di 300 classi eseguibili è stato utilizzato per valutare GPT-o4-mini, Claude-4-Sonnet e Qwen-3-Coder. Il corpus è accessibile su arXiv.

Fatti principali

  • OpenClassGen contiene 324.843 classi Python provenienti da 2.970 progetti open-source.
  • Ogni voce include una classe scritta da umani e il suo scheletro con firme e docstring.
  • 27 metriche di codice statico sono fornite per ogni classe.
  • Benchmark precedenti: ClassEval (100 classi sintetiche) e RealClassEval (400 classi).
  • Tre LLM valutati: GPT-o4-mini, Claude-4-Sonnet, Qwen-3-Coder.
  • Sottoinsieme di 300 classi eseguibili utilizzato per la valutazione.
  • Nessuna risoluzione del contesto a livello di repository necessaria.
  • Pubblicato su arXiv con ID 2504.15564.

Entità

Fonti