AgentMark: Watermarking Comportamentale per Agenti LLM
I ricercatori propongono AgentMark, un framework per incorporare identificatori multi-bit nei comportamenti di pianificazione degli agenti basati su LLM, come le scelte di strumenti e sotto-obiettivi, per la protezione della proprietà intellettuale e la provenienza normativa. A differenza del watermarking dei contenuti, che attribuisce gli output, AgentMark si rivolge al livello decisionale di alto livello. Affronta sfide come il degrado dell'utilità dovuto a deviazioni distributive e il funzionamento a scatola nera degli agenti, elicitando una distribuzione esplicita del comportamento e applicando un campionamento condizionale che preserva la distribuzione. L'articolo è disponibile su arXiv.
Fatti principali
- AgentMark è un framework di watermarking comportamentale per agenti basati su LLM.
- Incorpora identificatori multi-bit nelle decisioni di pianificazione.
- Si rivolge a comportamenti di pianificazione di alto livello come le scelte di strumenti e sotto-obiettivi.
- Il watermarking dei contenuti non riesce a identificare i comportamenti di pianificazione.
- Piccole deviazioni distributive possono degradare l'utilità in operazioni a lungo termine.
- Molti agenti operano come scatole nere.
- AgentMark utilizza un campionamento condizionale che preserva la distribuzione.
- L'articolo è su arXiv con ID 2601.03294.
Entità
Istituzioni
- arXiv