I modelli AI di frontiera ottengono meno del 50% nel benchmark ITBench-AA SRE

ai-technology · 2026-05-27

Un nuovo benchmark per attività IT aziendali agentiche, ITBench-AA SRE, mostra che tutti i modelli AI di frontiera ottengono punteggi inferiori al 50%. Sviluppato da Artificial Analysis e IBM, il benchmark valuta i modelli sulla diagnosi di incidenti Kubernetes. Claude Opus 4.7 guida con il 47%, seguito da GPT-5.5 al 46% e Qwen3.7 Max al 42%. Modelli a pesi aperti come GLM-5.1 (40%) e Gemma 4 31B (37%) si comportano in modo competitivo a costi inferiori. Il benchmark include 59 attività che richiedono ai modelli di identificare le entità causa principale da snapshot di incidenti. Traiettorie più lunghe non sono correlate a una maggiore accuratezza; i modelli che indagano troppo tendono a produrre falsi positivi. L'infrastruttura di test (Stirrup) è mantenuta costante per un confronto equo. I risultati evidenziano che anche i modelli avanzati faticano con operazioni IT complesse e l'efficienza dei costi varia ampiamente.

Fatti principali

1. Claude Opus 4.7 guida con il 47% di accuratezza.
2. GPT-5.5 ottiene il 46%, Qwen3.7 Max il 42%.
3. Tutti i modelli di frontiera ottengono meno del 50% su ITBench-AA SRE.
4. GLM-5.1 guida i modelli a pesi aperti con il 40%.
5. Gemma 4 31B ottiene il 37% a $0,14 per attività.
6. Gemini 3.1 Pro Preview ha una media di 83 turni ma ottiene il 30%.
7. ITBench-AA include 59 attività SRE (40 pubbliche, 19 riservate).
8. Il punteggio utilizza la precisione media a richiamo completo.

I modelli AI di frontiera ottengono meno del 50% nel benchmark ITBench-AA SRE

Fatti principali

Entità

Istituzioni

Fonti