ARTFEED — Contemporary Art Intelligence

SREGym: Benchmark ad alta fedeltà per agenti AI di Site Reliability Engineering

ai-technology · 2026-05-11

SREGym è un nuovo benchmark per valutare agenti AI nel Site Reliability Engineering (SRE). Fornisce un ambiente di sistema live basato su stack cloud-native reali, simulando scenari di guasto ad alta fedeltà tramite iniettori di guasti. Il benchmark modella la complessità produttiva con guasti a vari livelli, rumori ambientali e modalità di guasto come guasti metastabili e correlati. SREGym è modulare ed estensibile, includendo attualmente 90 problemi SRE realistici. È stato utilizzato per valutare agenti AI all'avanguardia, sebbene i risultati specifici non siano dettagliati nell'abstract. Il lavoro è stato annunciato su arXiv con ID 2605.07161.

Fatti principali

  • SREGym è un benchmark per agenti AI SRE.
  • Utilizza un ambiente di sistema live basato su stack cloud-native reali.
  • Gli scenari di guasto sono simulati tramite iniettori di guasti.
  • Modella guasti a diversi livelli, rumori ambientali e diverse modalità di guasto.
  • Include 90 problemi SRE realistici.
  • Il benchmark è modulare ed estensibile.
  • Utilizzato per valutare agenti all'avanguardia.
  • Annunciato su arXiv con ID 2605.07161.

Entità

Istituzioni

  • arXiv

Fonti