Sentra-Guard: Difesa in Tempo Reale contro Prompt Avversari per LLM
Sentra-Guard è stato presentato dai ricercatori come un sistema di difesa modulare che opera in tempo reale, progettato per identificare e contrastare minacce di jailbreak e injection di prompt rivolte ai grandi modelli linguistici (LLM). Questo sistema innovativo utilizza un'architettura ibrida che combina embedding SBERT indicizzati con FAISS per la comprensione semantica con classificatori transformer finemente sintonizzati per distinguere tra input innocui e dannosi. Una caratteristica chiave è il suo modulo di fusione classificatore-ricercatore, che calcola dinamicamente punteggi di rischio sensibili al contesto. Sentra-Guard affronta efficacemente sia i metodi di attacco diretti che quelli oscurati e offre supporto multilingue tramite un livello di preelaborazione indipendente dalla lingua che converte i prompt non inglesi in inglese per la valutazione. Il documento di ricerca è disponibile su arXiv con l'identificatore 2510.22628.
Fatti principali
- Sentra-Guard è un sistema di difesa modulare in tempo reale.
- Rileva attacchi di jailbreak e injection di prompt sui LLM.
- Utilizza embedding SBERT indicizzati con FAISS e classificatori transformer finemente sintonizzati.
- Presenta un modulo di fusione classificatore-ricercatore per il punteggio di rischio sensibile al contesto.
- Gestisce vettori di attacco diretti e oscurati.
- Include un livello di preelaborazione indipendente dalla lingua per il supporto multilingue.
- Articolo disponibile su arXiv: 2510.22628.
Entità
Istituzioni
- arXiv