Bot-Mod: Un Framework per Rilevare l'Intento Maligno nei Sistemi Multi-Agente
Un nuovo framework di moderazione chiamato Bot-Mod (Bot-Moderation) affronta la sfida di rilevare l'intento maligno nei sistemi multi-agente. A differenza della moderazione tradizionale basata sui contenuti, Bot-Mod identifica l'intento sottostante dell'agente attraverso scambi di dialogo multi-turno guidati da un campionamento basato su Gibbs su ipotesi di intento candidate. Questo approccio restringe progressivamente lo spazio degli obiettivi plausibili dell'agente per scoprire comportamenti maligni nascosti. Il framework viene valutato utilizzando un dataset derivato da Moltbook, che comprende diversi scenari. La ricerca è pubblicata su arXiv con l'identificatore 2605.12856.
Fatti principali
- Bot-Mod è un framework di moderazione per sistemi multi-agente.
- Rileva l'intento maligno anziché basarsi su segnali a livello di contenuto.
- Il framework utilizza dialoghi multi-turno e campionamento basato su Gibbs.
- Riduce progressivamente le ipotesi di intento candidate.
- La valutazione utilizza un dataset derivato da Moltbook.
- L'articolo è disponibile su arXiv con ID 2605.12856.
- L'approccio affronta nuove sfide di moderazione oltre il filtraggio dei contenuti.
- Gli agenti maligni possono produrre contenuti apparentemente benigni per eludere il rilevamento.
Entità
Istituzioni
- arXiv