KOCO-BENCH: Benchmarking LLM per lo Sviluppo Software di Dominio Specifico

other · 2026-04-24

Mentre i grandi modelli linguistici (LLM) sono abili nella programmazione generale, affrontano sfide nello sviluppo software specializzato, rendendo necessari metodi per la specializzazione di dominio. I benchmark attuali si concentrano sulla conoscenza che gli LLM possiedono piuttosto che sui loro processi di acquisizione e utilizzo di nuove informazioni, e non includono corpora di conoscenza espliciti. Presentiamo KOCO-BENCH, un nuovo benchmark che valuta le tecniche di specializzazione di dominio nello sviluppo software pratico. Comprende sei domini emergenti, 11 framework software e 25 progetti, offrendo corpora di conoscenza curati e una varietà di compiti di valutazione che vanno dalla generazione di codice a livello di funzione a quella a livello di progetto, tutti supportati da suite di test rigorose.

Fatti principali

Gli LLM eccellono nella programmazione generale ma faticano nello sviluppo software di dominio specifico.
I benchmark esistenti per codice di dominio specifico non possono valutare l'efficacia dei metodi di specializzazione di dominio.
KOCO-BENCH è un benchmark per valutare i metodi di specializzazione di dominio.
KOCO-BENCH contiene 6 domini emergenti.
KOCO-BENCH include 11 framework software e 25 progetti.
KOCO-BENCH presenta corpora di conoscenza curati.
I compiti di valutazione includono la generazione di codice di dominio dal livello di funzione a quello di progetto.
Le suite di test sono rigorose.

Entità

—

Fonti

arXiv cs.AI — 2026-04-23