KOCO-BENCH: Benchmarking LLM per lo Sviluppo Software di Dominio Specifico
Mentre i grandi modelli linguistici (LLM) sono abili nella programmazione generale, affrontano sfide nello sviluppo software specializzato, rendendo necessari metodi per la specializzazione di dominio. I benchmark attuali si concentrano sulla conoscenza che gli LLM possiedono piuttosto che sui loro processi di acquisizione e utilizzo di nuove informazioni, e non includono corpora di conoscenza espliciti. Presentiamo KOCO-BENCH, un nuovo benchmark che valuta le tecniche di specializzazione di dominio nello sviluppo software pratico. Comprende sei domini emergenti, 11 framework software e 25 progetti, offrendo corpora di conoscenza curati e una varietà di compiti di valutazione che vanno dalla generazione di codice a livello di funzione a quella a livello di progetto, tutti supportati da suite di test rigorose.
Fatti principali
- Gli LLM eccellono nella programmazione generale ma faticano nello sviluppo software di dominio specifico.
- I benchmark esistenti per codice di dominio specifico non possono valutare l'efficacia dei metodi di specializzazione di dominio.
- KOCO-BENCH è un benchmark per valutare i metodi di specializzazione di dominio.
- KOCO-BENCH contiene 6 domini emergenti.
- KOCO-BENCH include 11 framework software e 25 progetti.
- KOCO-BENCH presenta corpora di conoscenza curati.
- I compiti di valutazione includono la generazione di codice di dominio dal livello di funzione a quello di progetto.
- Le suite di test sono rigorose.
Entità
—