Codifica Matematica Supera i Filtri di Sicurezza degli LLM con Successo del 56%

ai-technology · 2026-05-07

Un nuovo studio rivela che codificare prompt dannosi come problemi matematici—utilizzando teoria degli insiemi, logica formale e meccanica quantistica—supera i filtri di sicurezza degli LLM con un tasso medio di successo dell'attacco compreso tra il 46% e il 56% su otto modelli. Il fattore chiave è una riformulazione profonda in genuini problemi matematici, non una semplice formattazione. La ricerca introduce una codifica in Logica Formale che raggiunge un successo paragonabile alla Teoria degli Insiemi, dimostrando che la vulnerabilità si generalizza attraverso formalismi diversi.

Fatti principali

I prompt dannosi codificati come problemi matematici superano i filtri di sicurezza degli LLM con un tasso medio di successo dell'attacco del 46%–56%.
Sono stati testati otto modelli target e due benchmark.
L'efficacia dipende da una riformulazione profonda in genuini problemi matematici, non solo dalla notazione matematica.
Le codifiche basate su regole senza riformulazione non ottengono risultati migliori delle linee di base non codificate.
Una nuova codifica in Logica Formale raggiunge un successo d'attacco paragonabile alla Teoria degli Insiemi.
La vulnerabilità si generalizza attraverso formalismi matematici, tra cui teoria degli insiemi, logica formale e meccanica quantistica.
Lo studio è pubblicato su arXiv con ID 2605.03441.
I meccanismi di sicurezza degli LLM si basano principalmente sul pattern matching semantico, che questo attacco sfrutta.

Codifica Matematica Supera i Filtri di Sicurezza degli LLM con Successo del 56%

Fatti principali

Entità

Istituzioni

Fonti