I modelli AI di frontiera ottengono meno del 50% nel benchmark ITBench-AA SRE
Un nuovo benchmark per attività IT aziendali agentiche, ITBench-AA SRE, mostra che tutti i modelli AI di frontiera ottengono punteggi inferiori al 50%. Sviluppato da Artificial Analysis e IBM, il benchmark valuta i modelli sulla diagnosi di incidenti Kubernetes. Claude Opus 4.7 guida con il 47%, seguito da GPT-5.5 al 46% e Qwen3.7 Max al 42%. Modelli a pesi aperti come GLM-5.1 (40%) e Gemma 4 31B (37%) si comportano in modo competitivo a costi inferiori. Il benchmark include 59 attività che richiedono ai modelli di identificare le entità causa principale da snapshot di incidenti. Traiettorie più lunghe non sono correlate a una maggiore accuratezza; i modelli che indagano troppo tendono a produrre falsi positivi. L'infrastruttura di test (Stirrup) è mantenuta costante per un confronto equo. I risultati evidenziano che anche i modelli avanzati faticano con operazioni IT complesse e l'efficienza dei costi varia ampiamente.
Fatti principali
- 1. Claude Opus 4.7 guida con il 47% di accuratezza.
- 2. GPT-5.5 ottiene il 46%, Qwen3.7 Max il 42%.
- 3. Tutti i modelli di frontiera ottengono meno del 50% su ITBench-AA SRE.
- 4. GLM-5.1 guida i modelli a pesi aperti con il 40%.
- 5. Gemma 4 31B ottiene il 37% a $0,14 per attività.
- 6. Gemini 3.1 Pro Preview ha una media di 83 turni ma ottiene il 30%.
- 7. ITBench-AA include 59 attività SRE (40 pubbliche, 19 riservate).
- 8. Il punteggio utilizza la precisione media a richiamo completo.
Entità
Istituzioni
- Artificial Analysis
- IBM
- HuggingFace