SREGym: Benchmark ad alta fedeltà per agenti AI di Site Reliability Engineering
SREGym è un nuovo benchmark per valutare agenti AI nel Site Reliability Engineering (SRE). Fornisce un ambiente di sistema live basato su stack cloud-native reali, simulando scenari di guasto ad alta fedeltà tramite iniettori di guasti. Il benchmark modella la complessità produttiva con guasti a vari livelli, rumori ambientali e modalità di guasto come guasti metastabili e correlati. SREGym è modulare ed estensibile, includendo attualmente 90 problemi SRE realistici. È stato utilizzato per valutare agenti AI all'avanguardia, sebbene i risultati specifici non siano dettagliati nell'abstract. Il lavoro è stato annunciato su arXiv con ID 2605.07161.
Fatti principali
- SREGym è un benchmark per agenti AI SRE.
- Utilizza un ambiente di sistema live basato su stack cloud-native reali.
- Gli scenari di guasto sono simulati tramite iniettori di guasti.
- Modella guasti a diversi livelli, rumori ambientali e diverse modalità di guasto.
- Include 90 problemi SRE realistici.
- Il benchmark è modulare ed estensibile.
- Utilizzato per valutare agenti all'avanguardia.
- Annunciato su arXiv con ID 2605.07161.
Entità
Istituzioni
- arXiv