FormulaCode: un benchmark per testare gli agenti LLM sull'ottimizzazione del codice reale
I ricercatori hanno introdotto FormulaCode, un benchmark per valutare gli agenti di codifica basati su grandi modelli linguistici (LLM) in compiti di ottimizzazione su larga scala a livello di repository. Il benchmark include 957 colli di bottiglia prestazionali provenienti da repository Python scientifici su GitHub, ciascuno con patch scritte da esperti e una media di 264,6 carichi di lavoro prestazionali mantenuti dalla comunità per compito. FormulaCode utilizza metriche multi-obiettivo a grana fine per valutare il comportamento di ottimizzazione olistico sotto vincoli realistici, affrontando le limitazioni dei benchmark esistenti che si basano su compiti sintetici o segnali binari di correttezza. Le valutazioni iniziali mostrano le sfide dell'ottimizzazione multi-obiettivo su larga scala per gli attuali agenti LLM.
Fatti principali
- FormulaCode è un benchmark per valutare gli agenti di codifica LLM su basi di codice reali e su larga scala.
- Comprende 957 colli di bottiglia prestazionali estratti da repository Python scientifici su GitHub.
- Ogni collo di bottiglia è accompagnato da patch scritte da esperti.
- Ci sono in media 264,6 carichi di lavoro prestazionali mantenuti dalla comunità per compito.
- Il benchmark utilizza metriche di prestazione multi-obiettivo a grana fine.
- I benchmark di codice esistenti si basano su compiti sintetici o segnali binari di correttezza.
- FormulaCode valuta il comportamento di ottimizzazione olistico sotto vincoli realistici.
- Le valutazioni iniziali rivelano sfide nell'ottimizzazione multi-obiettivo su larga scala.
Entità
Istituzioni
- arXiv
- GitHub