La Partizione del Vocabolario Bilanciata sui Logit Migliora la Watermarking degli LLM

ai-technology · 2026-04-27

Un nuovo preprint su arXiv (2604.22438) introduce la Partizione del Vocabolario Bilanciata sui Logit (SSG) per migliorare la watermarking dei modelli linguistici di grandi dimensioni (LLM). Lo schema KGW, un metodo di watermarking leader, soffre di efficacia ridotta in contesti a bassa entropia come la generazione di codice e il ragionamento matematico. Gli autori identificano che la distribuzione di probabilità del token successivo determina criticamente la forza della watermark—la capacità di modificare la selezione dei token. La partizione casuale del vocabolario, un passaggio chiave in KGW, spesso fallisce in queste condizioni. SSG affronta questo problema partizionando il vocabolario in base ai valori logit, bilanciando la forza della watermark tra i token. Il metodo migliora la rilevabilità mantenendo la qualità del testo, in particolare nei domini a bassa entropia. Il paper è disponibile su arXiv.

Fatti principali

arXiv:2604.22438
Proposta della Partizione del Vocabolario Bilanciata sui Logit (SSG)
Lo schema di watermarking KGW degrada in contesti a bassa entropia
La distribuzione di probabilità del token successivo determina la forza della watermark
La partizione casuale del vocabolario è un passaggio chiave in KGW
SSG partiziona il vocabolario in base ai valori logit
Migliora la rilevabilità nella generazione di codice e nel ragionamento matematico
Mantiene la qualità del testo

La Partizione del Vocabolario Bilanciata sui Logit Migliora la Watermarking degli LLM

Fatti principali

Entità

Istituzioni

Fonti