ARTFEED — Contemporary Art Intelligence

KOCO-BENCH: Benchmarking LLM per lo Sviluppo Software di Dominio Specifico

other · 2026-04-24

Mentre i grandi modelli linguistici (LLM) sono abili nella programmazione generale, affrontano sfide nello sviluppo software specializzato, rendendo necessari metodi per la specializzazione di dominio. I benchmark attuali si concentrano sulla conoscenza che gli LLM possiedono piuttosto che sui loro processi di acquisizione e utilizzo di nuove informazioni, e non includono corpora di conoscenza espliciti. Presentiamo KOCO-BENCH, un nuovo benchmark che valuta le tecniche di specializzazione di dominio nello sviluppo software pratico. Comprende sei domini emergenti, 11 framework software e 25 progetti, offrendo corpora di conoscenza curati e una varietà di compiti di valutazione che vanno dalla generazione di codice a livello di funzione a quella a livello di progetto, tutti supportati da suite di test rigorose.

Fatti principali

  • Gli LLM eccellono nella programmazione generale ma faticano nello sviluppo software di dominio specifico.
  • I benchmark esistenti per codice di dominio specifico non possono valutare l'efficacia dei metodi di specializzazione di dominio.
  • KOCO-BENCH è un benchmark per valutare i metodi di specializzazione di dominio.
  • KOCO-BENCH contiene 6 domini emergenti.
  • KOCO-BENCH include 11 framework software e 25 progetti.
  • KOCO-BENCH presenta corpora di conoscenza curati.
  • I compiti di valutazione includono la generazione di codice di dominio dal livello di funzione a quello di progetto.
  • Le suite di test sono rigorose.

Entità

Fonti