COMPASS: Framework AI per Agenti di Ricerca LLM più Sicuri
I ricercatori propongono COMPASS, un framework di allineamento dei processi guidato da MCTS cognitivo, per affrontare il degrado della sicurezza negli agenti di ricerca basati su LLM causato dalla scomposizione di intenzioni dannose in sotto-query innocue. COMPASS integra l'esplorazione cognitiva ad albero (CTE) per sintetizzare traiettorie di attacco stealth e l'allineamento introspettivo passo-passo (ISA) per una supervisione granulare dei processi. I risultati empirici mostrano un favorevole compromesso sicurezza-utilità con una riduzione dei dati di addestramento. Il framework mira a un robusto allineamento della sicurezza nei flussi di lavoro multi-step degli agenti.
Fatti principali
- COMPASS sta per Cognitive MCTS-Guided Process Alignment for Safe Search Agents.
- Gli agenti di ricerca basati su LLM consentono ragionamento multi-step e uso di strumenti.
- Il degrado della sicurezza indotto dal recupero avviene quando intenzioni dannose si scompongono in sotto-query apparentemente innocue.
- I metodi di allineamento esistenti lottano con segnali di sicurezza radi e violazioni diverse.
- COMPASS utilizza l'esplorazione cognitiva ad albero (CTE) per sintetizzare traiettorie di attacco stealth.
- COMPASS utilizza l'allineamento introspettivo passo-passo (ISA) per isolare azioni intermedie rischiose.
- I risultati empirici mostrano un favorevole compromesso sicurezza-utilità.
- COMPASS richiede sostanzialmente meno dati di addestramento rispetto ai metodi esistenti.
Entità
Istituzioni
- arXiv