I modelli AI di frontiera mostrano cooperazione nelle capacità, ma si profila la saturazione

ai-technology · 2026-05-20

Un nuovo studio di arXiv (2605.18840) analizza 34 modelli AI di frontiera provenienti da 10 laboratori (2024–2026) e scopre che le capacità nei benchmark cooperano (r = +0,72, p < 10⁻⁶), ma questa cooperazione varia per laboratorio e nel tempo. DeepSeek è passato da un'enfasi sul ragionamento a una priorità sulla programmazione (h: +11,2 → -4,7, oscillazione di 15,9 pp), Google mantiene un'enfasi costante sul ragionamento, mentre Anthropic oscilla tra escursioni nella programmazione e recupero. Sei architetture open-weight confermano una seconda transizione di capacità a 30–72 miliardi di parametri. SWE-bench sta saturando, mentre HLE (Harder than Human-Level Evaluation) emerge come metrica successiva più informativa. L'articolo introduce un trend di accoppiamento di popolazione e un residuo per rilascio (campo h) per diagnosticare l'enfasi sulle capacità e identificare quale misurazione è più informativa in seguito.

Fatti principali

34 modelli da 10 laboratori analizzati nel periodo 2024–2026
Le capacità cooperano tra i benchmark (r = +0,72, p < 10⁻⁶)
DeepSeek è passato da un'enfasi sul ragionamento a una priorità sulla programmazione (h: +11,2 → -4,7, oscillazione di 15,9 pp)
Google mantiene un'enfasi costante sul ragionamento
Anthropic oscilla tra escursioni nella programmazione e recupero
Sei architetture open-weight mostrano una seconda transizione di capacità a 30–72 miliardi di parametri
SWE-bench sta saturando; HLE è la prossima metrica informativa
Il metodo utilizza un trend di accoppiamento di popolazione e un residuo per rilascio (campo h)

I modelli AI di frontiera mostrano cooperazione nelle capacità, ma si profila la saturazione

Fatti principali

Entità

Istituzioni

Fonti