FormulaCode: un benchmark per testare gli agenti LLM sull'ottimizzazione del codice reale

other · 2026-05-18

I ricercatori hanno introdotto FormulaCode, un benchmark per valutare gli agenti di codifica basati su grandi modelli linguistici (LLM) in compiti di ottimizzazione su larga scala a livello di repository. Il benchmark include 957 colli di bottiglia prestazionali provenienti da repository Python scientifici su GitHub, ciascuno con patch scritte da esperti e una media di 264,6 carichi di lavoro prestazionali mantenuti dalla comunità per compito. FormulaCode utilizza metriche multi-obiettivo a grana fine per valutare il comportamento di ottimizzazione olistico sotto vincoli realistici, affrontando le limitazioni dei benchmark esistenti che si basano su compiti sintetici o segnali binari di correttezza. Le valutazioni iniziali mostrano le sfide dell'ottimizzazione multi-obiettivo su larga scala per gli attuali agenti LLM.

Fatti principali

FormulaCode è un benchmark per valutare gli agenti di codifica LLM su basi di codice reali e su larga scala.
Comprende 957 colli di bottiglia prestazionali estratti da repository Python scientifici su GitHub.
Ogni collo di bottiglia è accompagnato da patch scritte da esperti.
Ci sono in media 264,6 carichi di lavoro prestazionali mantenuti dalla comunità per compito.
Il benchmark utilizza metriche di prestazione multi-obiettivo a grana fine.
I benchmark di codice esistenti si basano su compiti sintetici o segnali binari di correttezza.
FormulaCode valuta il comportamento di ottimizzazione olistico sotto vincoli realistici.
Le valutazioni iniziali rivelano sfide nell'ottimizzazione multi-obiettivo su larga scala.

FormulaCode: un benchmark per testare gli agenti LLM sull'ottimizzazione del codice reale

Fatti principali

Entità

Istituzioni

Fonti