Sicurezza dell'Attivazione Basata su Regole per LLM Ispirata alla Cybersecurity
Una recente pubblicazione su arXiv presenta GAVEL, un framework progettato per garantire la sicurezza dell'attivazione basata su regole nei grandi modelli linguistici (LLM). I metodi esistenti per monitorare le attivazioni, che si basano su ampi dataset di uso improprio, spesso mostrano bassa precisione, adattabilità limitata e insufficiente interpretabilità. GAVEL concettualizza le attivazioni come elementi cognitivi (CE)—componenti dettagliati e interpretabili come 'fare una minaccia' o 'elaborazione del pagamento'—che possono essere combinati per riflettere azioni complesse e specifiche del dominio. Il framework stabilisce regole predicative riguardanti i CE e identifica le violazioni in tempo reale, consentendo agli utenti di regolare e migliorare le salvaguardie senza la necessità di riaddestrare modelli o rilevatori. Questo approccio trae ispirazione dalle tecniche di condivisione delle regole utilizzate nella cybersecurity.
Fatti principali
- GAVEL è un framework per la sicurezza dell'attivazione basata su regole negli LLM.
- Modella le attivazioni come elementi cognitivi (CE).
- I CE sono fattori granulari e interpretabili come 'fare una minaccia' e 'elaborazione del pagamento'.
- Il framework definisce regole predicative sui CE.
- Rileva le violazioni in tempo reale.
- Le salvaguardie possono essere aggiornate senza riaddestrare modelli o rilevatori.
- L'approccio è ispirato alla condivisione delle regole nella cybersecurity.
- Gli attuali approcci alla sicurezza dell'attivazione hanno scarsa precisione e flessibilità limitata.
Entità
Istituzioni
- arXiv