Attacco Furina sfrutta la regione di instabilità della sicurezza degli LLM
Una strategia di attacco recentemente identificata, denominata Furina, prende di mira le vulnerabilità dei modelli linguistici di grandi dimensioni (LLM) e delle loro controparti multimodali. I ricercatori hanno evidenziato che piccole variazioni nell'input possono portare a risposte erratiche da parte di questi sistemi, rivelando la complessità dell'allineamento della sicurezza. I loro risultati, documentati in un recente studio su arXiv (2605.26158), suggeriscono che gli attuali meccanismi di rilevamento faticano a contrastare minacce avanzate a causa di questa imprevedibilità. Lo strumento diagnostico da loro creato valuta molteplici segnali, dimostrando che, mentre output imprevedibili emergono in aree vulnerabili, le risposte interne di sicurezza del sistema rimangono compromesse. In particolare, Furina può essere eseguita utilizzando prompt segmentati e ancorati a scene senza alterare direttamente i modelli.
Fatti principali
- Furina è un attacco jailbreak che colpisce LLM e MLLM
- Il comportamento di sicurezza presenta una regione di instabilità con decisioni di rifiuto stocastiche
- Framework diagnostico multi-metrico che utilizza segnali esterni e interni
- Disaccoppiamento: alta incertezza dell'output, bassa attivazione della sicurezza interna
- Le difese basate sul rilevamento falliscono contro tali attacchi
- Furina utilizza prompt frammentati e ancorati a scene
- Nessuna ottimizzazione specifica del modello richiesta
- Pubblicato su arXiv con ID 2605.26158
Entità
Istituzioni
- arXiv