ARTFEED — Contemporary Art Intelligence

Sicurezza dell'Attivazione Basata su Regole per LLM Ispirata alla Cybersecurity

ai-technology · 2026-05-01

Una recente pubblicazione su arXiv presenta GAVEL, un framework progettato per garantire la sicurezza dell'attivazione basata su regole nei grandi modelli linguistici (LLM). I metodi esistenti per monitorare le attivazioni, che si basano su ampi dataset di uso improprio, spesso mostrano bassa precisione, adattabilità limitata e insufficiente interpretabilità. GAVEL concettualizza le attivazioni come elementi cognitivi (CE)—componenti dettagliati e interpretabili come 'fare una minaccia' o 'elaborazione del pagamento'—che possono essere combinati per riflettere azioni complesse e specifiche del dominio. Il framework stabilisce regole predicative riguardanti i CE e identifica le violazioni in tempo reale, consentendo agli utenti di regolare e migliorare le salvaguardie senza la necessità di riaddestrare modelli o rilevatori. Questo approccio trae ispirazione dalle tecniche di condivisione delle regole utilizzate nella cybersecurity.

Fatti principali

  • GAVEL è un framework per la sicurezza dell'attivazione basata su regole negli LLM.
  • Modella le attivazioni come elementi cognitivi (CE).
  • I CE sono fattori granulari e interpretabili come 'fare una minaccia' e 'elaborazione del pagamento'.
  • Il framework definisce regole predicative sui CE.
  • Rileva le violazioni in tempo reale.
  • Le salvaguardie possono essere aggiornate senza riaddestrare modelli o rilevatori.
  • L'approccio è ispirato alla condivisione delle regole nella cybersecurity.
  • Gli attuali approcci alla sicurezza dell'attivazione hanno scarsa precisione e flessibilità limitata.

Entità

Istituzioni

  • arXiv

Fonti