GPT-5.5 eguaglia Mythos Preview nei test di cybersicurezza britannici

ai-technology · 2026-05-01

Recenti risultati dell'AI Security Institute (AISI) del Regno Unito indicano che GPT-5.5 di OpenAI, lanciato pubblicamente la scorsa settimana, mostra prestazioni paragonabili a quelle del tanto atteso Mythos Preview di Anthropic nelle valutazioni di cybersicurezza. L'AISI ha valutato entrambi i modelli di IA su 95 sfide Capture the Flag, comprendenti sfruttamento web, reverse engineering e crittografia. GPT-5.5 ha raggiunto un tasso medio di superamento del 71,4% nei compiti di livello Esperto, superando leggermente il 68,6% di Mythos Preview (entro il margine di errore). In modo impressionante, GPT-5.5 ha completato un compito di disassemblaggio binario Rust in 10 minuti e 22 secondi, sostenendo costi API di 1,73 dollari senza aiuto umano. Nel test "The Last Ones" (TLO), che simula un attacco di estrazione dati, GPT-5.5 ha avuto successo in 3 prove su 10, mentre Mythos Preview in 2. Entrambi i modelli hanno fallito la simulazione "Cooling Tower" dell'AISI, una tendenza osservata in tutti i sistemi di IA precedentemente valutati. Anthropic ha inizialmente limitato il rilascio di Mythos Preview ai principali partner del settore a causa di preoccupazioni per la cybersicurezza.

Fatti principali

L'AISI ha valutato GPT-5.5 e Mythos Preview su 95 sfide Capture the Flag di cybersicurezza
GPT-5.5 ha superato il 71,4% dei compiti di livello Esperto, Mythos Preview il 68,6%
GPT-5.5 ha risolto una sfida di disassemblaggio binario Rust in 10m22s al costo di 1,73 dollari
Nel test TLO, GPT-5.5 ha avuto successo 3/10 volte, Mythos Preview 2/10
Nessun modello precedente aveva mai avuto successo nel TLO
Entrambi i modelli hanno fallito la simulazione della centrale elettrica Cooling Tower
Anthropic ha limitato Mythos Preview ai partner critici del settore
GPT-5.5 è stato lanciato pubblicamente la scorsa settimana

Entità

Istituzioni

Anthropic
OpenAI
UK AI Security Institute (AISI)

Luoghi

United Kingdom

Fonti

Ars Technica AI — 2026-05-01