SREGym: Benchmark ad alta fedeltà per agenti AI di Site Reliability Engineering

ai-technology · 2026-05-11

SREGym è un nuovo benchmark per valutare agenti AI nel Site Reliability Engineering (SRE). Fornisce un ambiente di sistema live basato su stack cloud-native reali, simulando scenari di guasto ad alta fedeltà tramite iniettori di guasti. Il benchmark modella la complessità produttiva con guasti a vari livelli, rumori ambientali e modalità di guasto come guasti metastabili e correlati. SREGym è modulare ed estensibile, includendo attualmente 90 problemi SRE realistici. È stato utilizzato per valutare agenti AI all'avanguardia, sebbene i risultati specifici non siano dettagliati nell'abstract. Il lavoro è stato annunciato su arXiv con ID 2605.07161.

Fatti principali

SREGym è un benchmark per agenti AI SRE.
Utilizza un ambiente di sistema live basato su stack cloud-native reali.
Gli scenari di guasto sono simulati tramite iniettori di guasti.
Modella guasti a diversi livelli, rumori ambientali e diverse modalità di guasto.
Include 90 problemi SRE realistici.
Il benchmark è modulare ed estensibile.
Utilizzato per valutare agenti all'avanguardia.
Annunciato su arXiv con ID 2605.07161.

SREGym: Benchmark ad alta fedeltà per agenti AI di Site Reliability Engineering

Fatti principali

Entità

Istituzioni

Fonti