SeqWM: Watermarking Sequenziale per il Comportamento degli Agenti LLM

ai-technology · 2026-05-13

I ricercatori propongono SeqWM, un framework per incorporare watermark nel processo decisionale sequenziale di agenti basati su LLM. A differenza del watermarking testuale, che non può catturare le scelte a livello di azione, SeqWM incorpora segnali nei pattern di transizione condizionati dalla storia e verifica le traiettorie in modo posizionale. Questo affronta la fragilità dei precedenti metodi di watermarking per agenti, che trattano ogni azione come indipendente, rendendoli vulnerabili a perturbazioni o troncamenti. L'approccio mira a stabilire provenienza, proprietà e rilevare il riutilizzo non autorizzato delle politiche degli agenti.

Fatti principali

SeqWM è un framework di watermarking comportamentale sequenziale per agenti LLM.
Incorporare segnali nei pattern di transizione condizionati dalla storia.
Verifica le traiettorie in modo posizionale.
I precedenti metodi di watermarking per agenti trattano ogni passo d'azione come indipendente.
Quei metodi diventano fragili quando le traiettorie vengono perturbate, troncate o osservate senza un allineamento affidabile.
Il watermarking testuale non può catturare le decisioni a livello di azione.
L'obiettivo è stabilire provenienza, proprietà e rilevare il riutilizzo non autorizzato.
L'articolo proviene da arXiv:2605.11036.

SeqWM: Watermarking Sequenziale per il Comportamento degli Agenti LLM

Fatti principali

Entità

Istituzioni

Fonti