Reflector: un framework a due stadi per la difesa dei LLM dal jailbreak
Un nuovo framework chiamato Reflector mira a difendere i modelli linguistici di grandi dimensioni (LLM) dagli attacchi di jailbreak indiretti. Il sistema utilizza un processo a due stadi: prima, la generazione guidata dall'insegnante crea dati di riflessione di alta qualità per il fine-tuning supervisionato (SFT), poi l'apprendimento per rinforzo (RL) con supervisione basata sui risultati e sulla validità delle ricompense instilla l'autoriflessione autonoma. I risultati empirici mostrano tassi di successo della difesa (DSR) superiori al 90% contro attacchi indiretti complessi, con una robusta generalizzazione in diversi scenari di minaccia. Il framework affronta le vulnerabilità nei LLM che eludono l'allineamento superficiale della sicurezza sfruttando i processi interni di generazione. L'articolo è disponibile su arXiv (2605.20654).
Fatti principali
- Reflector è un framework a due stadi per la difesa dei LLM dal jailbreak
- Il primo stadio utilizza la generazione guidata dall'insegnante per SFT
- Il secondo stadio utilizza RL con supervisione basata sui risultati e sulla validità delle ricompense
- Raggiunge DSR superiori al 90% contro attacchi indiretti
- Generalizza robustamente in diversi scenari di minaccia
- Affronta le vulnerabilità nel processo di generazione interna dei LLM
- Articolo disponibile su arXiv: 2605.20654
- Pubblicato come preprint arXiv
Entità
Istituzioni
- arXiv