ClawdGo: Addestramento di Agenti AI Autonomi nella Consapevolezza della Sicurezza Endogena
Esiste un nuovo framework chiamato ClawdGo progettato per aiutare gli agenti AI a individuare e valutare le minacce interne senza modificare i loro modelli sottostanti. Affronta alcune vulnerabilità che i sistemi attuali trascurano, come l'iniezione di prompt e l'ingegneria sociale. ClawdGo introduce quattro caratteristiche principali: TLDT, che organizza 12 elementi addestrabili in tre livelli—Autodifesa, Protezione del Proprietario e Sicurezza Aziendale; ASAT, un sistema di addestramento in cui l'AI assume diversi ruoli come attaccante e difensore; CSMA, che potenzia lo sviluppo delle competenze utilizzando una memoria a quattro livelli; e qualcosa chiamato Cristallizzazione degli Assiomi, anche se non abbiamo ancora tutti i dettagli. Puoi trovare questa ricerca su arXiv con l'ID 2604.24020.
Fatti principali
- ClawdGo è un framework per l'addestramento alla consapevolezza della sicurezza endogena di agenti AI autonomi.
- Affronta l'iniezione di prompt, l'avvelenamento della memoria, gli attacchi alla supply chain e l'ingegneria sociale.
- Le difese esistenti riguardano solo il perimetro della piattaforma, non il giudizio sulle minacce dell'agente.
- ClawdGo insegna agli agenti a riconoscere e ragionare sulle minacce al momento dell'inferenza senza modificare il modello.
- TLDT (Tassonomia a Tre Livelli di Dominio) organizza 12 dimensioni addestrabili su tre livelli.
- ASAT (Addestramento Autonomo alla Consapevolezza della Sicurezza) utilizza un ciclo di auto-gioco con ruoli di attaccante, difensore e valutatore.
- CSMA (Accumulo di Memoria tra Sessioni) utilizza un'architettura di memoria persistente a quattro livelli.
- La ricerca è pubblicata su arXiv con ID 2604.24020.
Entità
Istituzioni
- arXiv