ARTFEED — Contemporary Art Intelligence

FormulaCode: un benchmark per testare gli agenti LLM sull'ottimizzazione del codice reale

other · 2026-05-18

I ricercatori hanno introdotto FormulaCode, un benchmark per valutare gli agenti di codifica basati su grandi modelli linguistici (LLM) in compiti di ottimizzazione su larga scala a livello di repository. Il benchmark include 957 colli di bottiglia prestazionali provenienti da repository Python scientifici su GitHub, ciascuno con patch scritte da esperti e una media di 264,6 carichi di lavoro prestazionali mantenuti dalla comunità per compito. FormulaCode utilizza metriche multi-obiettivo a grana fine per valutare il comportamento di ottimizzazione olistico sotto vincoli realistici, affrontando le limitazioni dei benchmark esistenti che si basano su compiti sintetici o segnali binari di correttezza. Le valutazioni iniziali mostrano le sfide dell'ottimizzazione multi-obiettivo su larga scala per gli attuali agenti LLM.

Fatti principali

  • FormulaCode è un benchmark per valutare gli agenti di codifica LLM su basi di codice reali e su larga scala.
  • Comprende 957 colli di bottiglia prestazionali estratti da repository Python scientifici su GitHub.
  • Ogni collo di bottiglia è accompagnato da patch scritte da esperti.
  • Ci sono in media 264,6 carichi di lavoro prestazionali mantenuti dalla comunità per compito.
  • Il benchmark utilizza metriche di prestazione multi-obiettivo a grana fine.
  • I benchmark di codice esistenti si basano su compiti sintetici o segnali binari di correttezza.
  • FormulaCode valuta il comportamento di ottimizzazione olistico sotto vincoli realistici.
  • Le valutazioni iniziali rivelano sfide nell'ottimizzazione multi-obiettivo su larga scala.

Entità

Istituzioni

  • arXiv
  • GitHub

Fonti