Algoritmo di Watermarking PASA per Testi Generati da LLM Sotto Attacchi Semantici

ai-technology · 2026-05-13

I ricercatori hanno introdotto una nuova tecnica di watermarking denominata PASA, progettata per identificare testi generati da LLM, resistente ad attacchi semantici invarianti come la parafrasi. Questo algoritmo, descritto in una pubblicazione su arXiv (2605.10977), opera a livello semantico utilizzando cluster nello spazio di embedding latente e una relazione distribuzionale tra sequenze di token e sequenze ausiliarie, coordinate tramite una chiave segreta e una cronologia semantica. La metodologia si basa su un modello teorico che definisce una combinazione ideale di embedding e rilevamento, garantendo un equilibrio tra precisione di rilevamento, robustezza e distorsione. Le valutazioni su vari LLM e scenari di attacco dimostrano che PASA mantiene la sua forza anche contro parafrasi aggressive, affrontando una debolezza significativa nelle attuali tecniche di watermarking per un uso responsabile dell'IA.

Fatti principali

PASA è un algoritmo di watermarking per testi generati da LLM.
È robusto contro attacchi semantici invarianti come la parafrasi.
PASA opera su cluster semantici in uno spazio di embedding latente.
Utilizza casualità condivisa sincronizzata da una chiave segreta e una cronologia semantica.
L'algoritmo raggiunge compromessi fondamentali tra accuratezza di rilevamento, robustezza e distorsione.
Le valutazioni sono state condotte su più LLM e attacchi semantici invarianti.
PASA rimane robusto anche sotto forte parafrasi.
L'articolo è disponibile su arXiv con ID 2605.10977.

Algoritmo di Watermarking PASA per Testi Generati da LLM Sotto Attacchi Semantici

Fatti principali

Entità

Istituzioni

Fonti