Sicurezza dell'Attivazione Basata su Regole per LLM Ispirata alla Cybersecurity

ai-technology · 2026-05-01

Una recente pubblicazione su arXiv presenta GAVEL, un framework progettato per garantire la sicurezza dell'attivazione basata su regole nei grandi modelli linguistici (LLM). I metodi esistenti per monitorare le attivazioni, che si basano su ampi dataset di uso improprio, spesso mostrano bassa precisione, adattabilità limitata e insufficiente interpretabilità. GAVEL concettualizza le attivazioni come elementi cognitivi (CE)—componenti dettagliati e interpretabili come 'fare una minaccia' o 'elaborazione del pagamento'—che possono essere combinati per riflettere azioni complesse e specifiche del dominio. Il framework stabilisce regole predicative riguardanti i CE e identifica le violazioni in tempo reale, consentendo agli utenti di regolare e migliorare le salvaguardie senza la necessità di riaddestrare modelli o rilevatori. Questo approccio trae ispirazione dalle tecniche di condivisione delle regole utilizzate nella cybersecurity.

Fatti principali

GAVEL è un framework per la sicurezza dell'attivazione basata su regole negli LLM.
Modella le attivazioni come elementi cognitivi (CE).
I CE sono fattori granulari e interpretabili come 'fare una minaccia' e 'elaborazione del pagamento'.
Il framework definisce regole predicative sui CE.
Rileva le violazioni in tempo reale.
Le salvaguardie possono essere aggiornate senza riaddestrare modelli o rilevatori.
L'approccio è ispirato alla condivisione delle regole nella cybersecurity.
Gli attuali approcci alla sicurezza dell'attivazione hanno scarsa precisione e flessibilità limitata.

Sicurezza dell'Attivazione Basata su Regole per LLM Ispirata alla Cybersecurity

Fatti principali

Entità

Istituzioni

Fonti