SLAM: Marcatura Strutturale dell'Attivazione Linguistica per Watermark nei LLM
Una nuova tecnica di watermarking per modelli linguistici di grandi dimensioni, denominata SLAM (Structural Linguistic Activation Marking), è stata pubblicata su arXiv. A differenza degli approcci tradizionali che alterano le distribuzioni dei token, SLAM integra i watermark nella geometria linguistica strutturale utilizzando autoencoder sparsi per navigare e regolare le direzioni del flusso residuo che codificano attributi come voce, tempo e ordine delle clausole, preservando così il campionamento lessicale e la semantica. Valutato su Gemma-2 2B e 9B, SLAM ha dimostrato una precisione di rilevamento del 100% con un costo di qualità minimo di soli 1-2 punti premio, rispetto a 7.5-11.5 per KGW, EWD e Unigram. Pur mantenendo naturalezza e diversità simili ai modelli senza watermark, SLAM mostra resilienza contro modifiche a livello di parola ma è suscettibile ad altri tipi di attacchi. La ricerca è disponibile su arXiv:2605.05443.
Fatti principali
- SLAM sta per Structural Linguistic Activation Marking
- È uno schema di watermarking white-box per LLM
- Utilizza autoencoder sparsi per identificare le direzioni del flusso residuo che codificano la struttura linguistica
- Dirige tali direzioni al momento della generazione senza vincolare il campionamento lessicale o la semantica
- Testato sui modelli Gemma-2 2B e 9B
- Raggiunge una precisione di rilevamento del 100%
- Costo di qualità di 1-2 punti premio rispetto a 7.5-11.5 per KGW, EWD e Unigram
- Resiste a modifiche a livello di parola ma ha un profilo di robustezza complementare
Entità
Istituzioni
- arXiv