SLAM: Marcatura Strutturale dell'Attivazione Linguistica per Watermark nei LLM

ai-technology · 2026-05-09

Una nuova tecnica di watermarking per modelli linguistici di grandi dimensioni, denominata SLAM (Structural Linguistic Activation Marking), è stata pubblicata su arXiv. A differenza degli approcci tradizionali che alterano le distribuzioni dei token, SLAM integra i watermark nella geometria linguistica strutturale utilizzando autoencoder sparsi per navigare e regolare le direzioni del flusso residuo che codificano attributi come voce, tempo e ordine delle clausole, preservando così il campionamento lessicale e la semantica. Valutato su Gemma-2 2B e 9B, SLAM ha dimostrato una precisione di rilevamento del 100% con un costo di qualità minimo di soli 1-2 punti premio, rispetto a 7.5-11.5 per KGW, EWD e Unigram. Pur mantenendo naturalezza e diversità simili ai modelli senza watermark, SLAM mostra resilienza contro modifiche a livello di parola ma è suscettibile ad altri tipi di attacchi. La ricerca è disponibile su arXiv:2605.05443.

Fatti principali

SLAM sta per Structural Linguistic Activation Marking
È uno schema di watermarking white-box per LLM
Utilizza autoencoder sparsi per identificare le direzioni del flusso residuo che codificano la struttura linguistica
Dirige tali direzioni al momento della generazione senza vincolare il campionamento lessicale o la semantica
Testato sui modelli Gemma-2 2B e 9B
Raggiunge una precisione di rilevamento del 100%
Costo di qualità di 1-2 punti premio rispetto a 7.5-11.5 per KGW, EWD e Unigram
Resiste a modifiche a livello di parola ma ha un profilo di robustezza complementare

SLAM: Marcatura Strutturale dell'Attivazione Linguistica per Watermark nei LLM

Fatti principali

Entità

Istituzioni

Fonti