Logit-Balanced Vocabulary Partitioning Improves LLM Watermarking

ai-technology · 2026-04-27

A new arXiv preprint (2604.22438) introduces Logit-Balanced Vocabulary Partitioning (SSG) to enhance watermarking for large language models (LLMs). The KGW scheme, a leading watermarking method, suffers degraded effectiveness in low-entropy settings like code generation and mathematical reasoning. The authors identify that the next-token probability distribution critically determines watermark strength—the ability to modify token selection. Random vocabulary partitioning, a key step in KGW, often fails under these conditions. SSG addresses this by partitioning the vocabulary based on logit values, balancing watermark strength across tokens. The method improves detectability while maintaining text quality, particularly in low-entropy domains. The paper is available on arXiv.

Key facts

arXiv:2604.22438
Logit-Balanced Vocabulary Partitioning (SSG) proposed
KGW watermarking scheme degrades in low-entropy settings
Next-token probability distribution determines watermark strength
Random vocabulary partitioning is a key step in KGW
SSG partitions vocabulary based on logit values
Improves detectability in code generation and mathematical reasoning
Maintains text quality

Logit-Balanced Vocabulary Partitioning Improves LLM Watermarking

Key facts

Entities

Institutions

Sources