Attacco Furina sfrutta la regione di instabilità della sicurezza degli LLM

ai-technology · 2026-05-27

Una strategia di attacco recentemente identificata, denominata Furina, prende di mira le vulnerabilità dei modelli linguistici di grandi dimensioni (LLM) e delle loro controparti multimodali. I ricercatori hanno evidenziato che piccole variazioni nell'input possono portare a risposte erratiche da parte di questi sistemi, rivelando la complessità dell'allineamento della sicurezza. I loro risultati, documentati in un recente studio su arXiv (2605.26158), suggeriscono che gli attuali meccanismi di rilevamento faticano a contrastare minacce avanzate a causa di questa imprevedibilità. Lo strumento diagnostico da loro creato valuta molteplici segnali, dimostrando che, mentre output imprevedibili emergono in aree vulnerabili, le risposte interne di sicurezza del sistema rimangono compromesse. In particolare, Furina può essere eseguita utilizzando prompt segmentati e ancorati a scene senza alterare direttamente i modelli.

Fatti principali

Furina è un attacco jailbreak che colpisce LLM e MLLM
Il comportamento di sicurezza presenta una regione di instabilità con decisioni di rifiuto stocastiche
Framework diagnostico multi-metrico che utilizza segnali esterni e interni
Disaccoppiamento: alta incertezza dell'output, bassa attivazione della sicurezza interna
Le difese basate sul rilevamento falliscono contro tali attacchi
Furina utilizza prompt frammentati e ancorati a scene
Nessuna ottimizzazione specifica del modello richiesta
Pubblicato su arXiv con ID 2605.26158

Attacco Furina sfrutta la regione di instabilità della sicurezza degli LLM

Fatti principali

Entità

Istituzioni

Fonti