ClawdGo: Addestramento di Agenti AI Autonomi nella Consapevolezza della Sicurezza Endogena

ai-technology · 2026-04-29

Esiste un nuovo framework chiamato ClawdGo progettato per aiutare gli agenti AI a individuare e valutare le minacce interne senza modificare i loro modelli sottostanti. Affronta alcune vulnerabilità che i sistemi attuali trascurano, come l'iniezione di prompt e l'ingegneria sociale. ClawdGo introduce quattro caratteristiche principali: TLDT, che organizza 12 elementi addestrabili in tre livelli—Autodifesa, Protezione del Proprietario e Sicurezza Aziendale; ASAT, un sistema di addestramento in cui l'AI assume diversi ruoli come attaccante e difensore; CSMA, che potenzia lo sviluppo delle competenze utilizzando una memoria a quattro livelli; e qualcosa chiamato Cristallizzazione degli Assiomi, anche se non abbiamo ancora tutti i dettagli. Puoi trovare questa ricerca su arXiv con l'ID 2604.24020.

Fatti principali

ClawdGo è un framework per l'addestramento alla consapevolezza della sicurezza endogena di agenti AI autonomi.
Affronta l'iniezione di prompt, l'avvelenamento della memoria, gli attacchi alla supply chain e l'ingegneria sociale.
Le difese esistenti riguardano solo il perimetro della piattaforma, non il giudizio sulle minacce dell'agente.
ClawdGo insegna agli agenti a riconoscere e ragionare sulle minacce al momento dell'inferenza senza modificare il modello.
TLDT (Tassonomia a Tre Livelli di Dominio) organizza 12 dimensioni addestrabili su tre livelli.
ASAT (Addestramento Autonomo alla Consapevolezza della Sicurezza) utilizza un ciclo di auto-gioco con ruoli di attaccante, difensore e valutatore.
CSMA (Accumulo di Memoria tra Sessioni) utilizza un'architettura di memoria persistente a quattro livelli.
La ricerca è pubblicata su arXiv con ID 2604.24020.

ClawdGo: Addestramento di Agenti AI Autonomi nella Consapevolezza della Sicurezza Endogena

Fatti principali

Entità

Istituzioni

Fonti