SafeHarbor: Guardrail con Memoria Aumentata per la Sicurezza degli Agenti LLM
I ricercatori propongono SafeHarbor, un framework per migliorare la sicurezza degli agenti LLM senza eccessivo rifiuto. Utilizza regole di difesa sensibili al contesto derivate da generazione avversaria e un sistema di memoria gerarchica locale per l'iniezione dinamica di regole. L'approccio è senza training e plug-and-play.
Fatti principali
- 1. arXiv:2605.05704
- 2. SafeHarbor è un guardrail con memoria gerarchica aumentata
- 3. Affronta il problema dell'eccessivo rifiuto nella sicurezza degli agenti LLM
- 4. Estrae regole di difesa sensibili al contesto tramite generazione avversaria potenziata
- 5. Utilizza memoria gerarchica locale per l'iniezione dinamica di regole
- 6. Soluzione senza training, efficiente, plug-and-play
- 7. Introduce un meccanismo basato sull'entropia informativa
Entità
Istituzioni
- arXiv