I modelli AI di frontiera mostrano cooperazione nelle capacità, ma si profila la saturazione
Un nuovo studio di arXiv (2605.18840) analizza 34 modelli AI di frontiera provenienti da 10 laboratori (2024–2026) e scopre che le capacità nei benchmark cooperano (r = +0,72, p < 10⁻⁶), ma questa cooperazione varia per laboratorio e nel tempo. DeepSeek è passato da un'enfasi sul ragionamento a una priorità sulla programmazione (h: +11,2 → -4,7, oscillazione di 15,9 pp), Google mantiene un'enfasi costante sul ragionamento, mentre Anthropic oscilla tra escursioni nella programmazione e recupero. Sei architetture open-weight confermano una seconda transizione di capacità a 30–72 miliardi di parametri. SWE-bench sta saturando, mentre HLE (Harder than Human-Level Evaluation) emerge come metrica successiva più informativa. L'articolo introduce un trend di accoppiamento di popolazione e un residuo per rilascio (campo h) per diagnosticare l'enfasi sulle capacità e identificare quale misurazione è più informativa in seguito.
Fatti principali
- 34 modelli da 10 laboratori analizzati nel periodo 2024–2026
- Le capacità cooperano tra i benchmark (r = +0,72, p < 10⁻⁶)
- DeepSeek è passato da un'enfasi sul ragionamento a una priorità sulla programmazione (h: +11,2 → -4,7, oscillazione di 15,9 pp)
- Google mantiene un'enfasi costante sul ragionamento
- Anthropic oscilla tra escursioni nella programmazione e recupero
- Sei architetture open-weight mostrano una seconda transizione di capacità a 30–72 miliardi di parametri
- SWE-bench sta saturando; HLE è la prossima metrica informativa
- Il metodo utilizza un trend di accoppiamento di popolazione e un residuo per rilascio (campo h)
Entità
Istituzioni
- DeepSeek
- Anthropic
- arXiv