La Partizione del Vocabolario Bilanciata sui Logit Migliora la Watermarking degli LLM
Un nuovo preprint su arXiv (2604.22438) introduce la Partizione del Vocabolario Bilanciata sui Logit (SSG) per migliorare la watermarking dei modelli linguistici di grandi dimensioni (LLM). Lo schema KGW, un metodo di watermarking leader, soffre di efficacia ridotta in contesti a bassa entropia come la generazione di codice e il ragionamento matematico. Gli autori identificano che la distribuzione di probabilità del token successivo determina criticamente la forza della watermark—la capacità di modificare la selezione dei token. La partizione casuale del vocabolario, un passaggio chiave in KGW, spesso fallisce in queste condizioni. SSG affronta questo problema partizionando il vocabolario in base ai valori logit, bilanciando la forza della watermark tra i token. Il metodo migliora la rilevabilità mantenendo la qualità del testo, in particolare nei domini a bassa entropia. Il paper è disponibile su arXiv.
Fatti principali
- arXiv:2604.22438
- Proposta della Partizione del Vocabolario Bilanciata sui Logit (SSG)
- Lo schema di watermarking KGW degrada in contesti a bassa entropia
- La distribuzione di probabilità del token successivo determina la forza della watermark
- La partizione casuale del vocabolario è un passaggio chiave in KGW
- SSG partiziona il vocabolario in base ai valori logit
- Migliora la rilevabilità nella generazione di codice e nel ragionamento matematico
- Mantiene la qualità del testo
Entità
Istituzioni
- arXiv