Watermark a livello di interazione per rilevare la distillazione della conoscenza degli LLM

ai-technology · 2026-05-20

Un recente preprint su arXiv (2605.16462v1) introduce watermark anti-distillazione a livello di interazione, mirati a identificare la distillazione non autorizzata della conoscenza dalle API degli LLM in uso. Le attuali misure protettive, come i watermark basati su liste verdi e le tecniche crittografiche, sono suscettibili ad attacchi di parafrasi che eliminano i segnali pur mantenendo la conoscenza. Questo nuovo approccio sposta la traccia nei modelli di interazione del teacher utilizzando un prompt di sistema che occasionalmente induce indicatori comportamentali, come richieste di follow-up esplicite, variazioni a bassa frequenza o riformulazioni dichiarative. Un distillatore inconsapevole adotta questi comportamenti, consentendo al difensore di effettuare audit tramite query black-box con un LLM convalidato dall'uomo che funge da giudice. Questo metodo affronta il problema della mancanza di controllo del difensore sul processo di addestramento dell'attaccante e sui logit del token successivo.

Fatti principali

arXiv:2605.16462v1 propone watermark anti-distillazione a livello di interazione.
Le difese esistenti come i watermark basati su liste verdi sono vulnerabili ad attacchi di parafrasi.
Il metodo induce marcatori comportamentali tramite prompt di sistema.
I marcatori includono domande di follow-up, varianti a bassa frequenza o riformulazioni dichiarative.
Il difensore effettua audit tramite query black-box con LLM come giudice.
Il difensore non può controllare la pipeline di addestramento dell'attaccante né i logit.
L'approccio mira alla distillazione non autorizzata della conoscenza dalle API degli LLM distribuiti.
Il preprint è categorizzato come 'cross' su arXiv.

Watermark a livello di interazione per rilevare la distillazione della conoscenza degli LLM

Fatti principali

Entità

Istituzioni

Fonti