EVA: Modifica dei Modelli per la Difesa dai Jailbreak di LLM/VLM
Un nuovo framework chiamato EVA (Editing for Versatile Alignment against Jailbreaks) è stato introdotto dai ricercatori per proteggere i modelli linguistici di grandi dimensioni (LLM) e i modelli linguistico-visivi (VLM) dalle minacce di jailbreak. Invece di riaddestrare estesi parametri, EVA si concentra sull'individuazione e la modifica di neuroni specifici che rendono questi modelli vulnerabili a prompt avversari, ridefinendo l'allineamento della sicurezza come un compito mirato di correzione della conoscenza. Questo metodo affronta efficacemente le richieste computazionali e l'equilibrio sicurezza-utilità spesso riscontrati negli approcci tradizionali come il fine-tuning della sicurezza o i filtri esterni. L'articolo di ricerca è disponibile su arXiv con l'identificatore 2605.14750.
Fatti principali
- 1. EVA sta per Editing for Versatile Alignment against Jailbreaks.
- 2. Il framework ha come target LLM e VLM.
- 3. Utilizza la modifica diretta del modello invece del riaddestramento.
- 4. Modifica neuroni specifici per correggere le vulnerabilità di sicurezza.
- 5. Mira a ridurre il carico computazionale.
- 6. Affronta il compromesso sicurezza-utilità.
- 7. L'articolo è su arXiv con ID 2605.14750.
- 8. L'approccio riformula l'allineamento della sicurezza come correzione della conoscenza.
Entità
Istituzioni
- arXiv