CoREB: Un Benchmark e Modello Multitask per la Ricerca di Codice Oltre il Recupero
Un nuovo benchmark per il recupero e il riordinamento del codice, chiamato CoREB, è stato sviluppato da ricercatori, insieme a un riordinatore di codice specializzato. Questo benchmark supera le carenze delle attuali valutazioni della ricerca di codice comprendendo l'intero processo, che include il riordinamento e query modellate sulle esigenze degli sviluppatori. CoREB deriva da problemi riscritti in modo controfattuale da LiveCodeBench in cinque linguaggi di programmazione, rilasciati in fasi con valutazioni di rilevanza graduate. Lo studio ha valutato undici modelli di embedding e cinque riordinatori su tre compiti: testo-a-codice, codice-a-testo e codice-a-codice. I risultati indicano che gli embedding specializzati per il codice eccellono nel recupero codice-a-codice, mentre il riordinamento migliora le prestazioni complessive del compito. L'iniziativa mira a ridurre al minimo la contaminazione dei dati, le imprecisioni delle etichette e i problemi di rilevanza binaria nelle valutazioni della ricerca di codice.
Fatti principali
- CoREB è un benchmark multitask a contaminazione limitata per il recupero e il riordinamento del codice.
- Il benchmark è costruito da problemi di LiveCodeBench riscritti in modo controfattuale.
- Copre cinque linguaggi di programmazione.
- Vengono utilizzati rilasci temporizzati con giudizi di rilevanza graduati.
- Sono stati valutati undici modelli di embedding e cinque riordinatori.
- Tre compiti: testo-a-codice, codice-a-testo e codice-a-codice.
- Gli embedding specializzati per il codice dominano il recupero codice-a-codice.
- Il riordinamento migliora significativamente le prestazioni in tutti i compiti.
Entità
Istituzioni
- arXiv