GPT-5.5 eguaglia Mythos Preview nei test di cybersicurezza britannici
Recenti risultati dell'AI Security Institute (AISI) del Regno Unito indicano che GPT-5.5 di OpenAI, lanciato pubblicamente la scorsa settimana, mostra prestazioni paragonabili a quelle del tanto atteso Mythos Preview di Anthropic nelle valutazioni di cybersicurezza. L'AISI ha valutato entrambi i modelli di IA su 95 sfide Capture the Flag, comprendenti sfruttamento web, reverse engineering e crittografia. GPT-5.5 ha raggiunto un tasso medio di superamento del 71,4% nei compiti di livello Esperto, superando leggermente il 68,6% di Mythos Preview (entro il margine di errore). In modo impressionante, GPT-5.5 ha completato un compito di disassemblaggio binario Rust in 10 minuti e 22 secondi, sostenendo costi API di 1,73 dollari senza aiuto umano. Nel test "The Last Ones" (TLO), che simula un attacco di estrazione dati, GPT-5.5 ha avuto successo in 3 prove su 10, mentre Mythos Preview in 2. Entrambi i modelli hanno fallito la simulazione "Cooling Tower" dell'AISI, una tendenza osservata in tutti i sistemi di IA precedentemente valutati. Anthropic ha inizialmente limitato il rilascio di Mythos Preview ai principali partner del settore a causa di preoccupazioni per la cybersicurezza.
Fatti principali
- L'AISI ha valutato GPT-5.5 e Mythos Preview su 95 sfide Capture the Flag di cybersicurezza
- GPT-5.5 ha superato il 71,4% dei compiti di livello Esperto, Mythos Preview il 68,6%
- GPT-5.5 ha risolto una sfida di disassemblaggio binario Rust in 10m22s al costo di 1,73 dollari
- Nel test TLO, GPT-5.5 ha avuto successo 3/10 volte, Mythos Preview 2/10
- Nessun modello precedente aveva mai avuto successo nel TLO
- Entrambi i modelli hanno fallito la simulazione della centrale elettrica Cooling Tower
- Anthropic ha limitato Mythos Preview ai partner critici del settore
- GPT-5.5 è stato lanciato pubblicamente la scorsa settimana
Entità
Istituzioni
- Anthropic
- OpenAI
- UK AI Security Institute (AISI)
Luoghi
- United Kingdom