SeqWM: Watermarking Sequenziale per il Comportamento degli Agenti LLM
I ricercatori propongono SeqWM, un framework per incorporare watermark nel processo decisionale sequenziale di agenti basati su LLM. A differenza del watermarking testuale, che non può catturare le scelte a livello di azione, SeqWM incorpora segnali nei pattern di transizione condizionati dalla storia e verifica le traiettorie in modo posizionale. Questo affronta la fragilità dei precedenti metodi di watermarking per agenti, che trattano ogni azione come indipendente, rendendoli vulnerabili a perturbazioni o troncamenti. L'approccio mira a stabilire provenienza, proprietà e rilevare il riutilizzo non autorizzato delle politiche degli agenti.
Fatti principali
- SeqWM è un framework di watermarking comportamentale sequenziale per agenti LLM.
- Incorporare segnali nei pattern di transizione condizionati dalla storia.
- Verifica le traiettorie in modo posizionale.
- I precedenti metodi di watermarking per agenti trattano ogni passo d'azione come indipendente.
- Quei metodi diventano fragili quando le traiettorie vengono perturbate, troncate o osservate senza un allineamento affidabile.
- Il watermarking testuale non può catturare le decisioni a livello di azione.
- L'obiettivo è stabilire provenienza, proprietà e rilevare il riutilizzo non autorizzato.
- L'articolo proviene da arXiv:2605.11036.
Entità
Istituzioni
- arXiv