Nuova metrica misura la perdita di diversità lessicale nel decoding degli LLM

ai-technology · 2026-05-27

I ricercatori hanno introdotto il Word Coverage Score (WCS), una metrica che quantifica come i filtri di campionamento standard come Top-p, Top-k e Min-p sopprimano le parole a bassa frequenza e ad alto contenuto informativo nei modelli linguistici di grandi dimensioni (LLM). Lo studio, pubblicato su arXiv (2605.27268), analizza modelli open-weight su frammenti di corpus scritti da umani per misurare i tassi di sopravvivenza lessicale. I risultati forniscono prove quantitative che i meccanismi di decoding, non solo la conoscenza del modello, contribuiscono alla generazione di testo ripetitivo e omogeneo. Il WCS valuta quali parole umane contestualmente appropriate diventano irraggiungibili a causa del pruning matematico, anche quando esistono nello spazio di probabilità.

Fatti principali

Introdotto il Word Coverage Score (WCS) come metrica
Misura il tasso di sopravvivenza lessicale delle parole a bassa frequenza
Analizza modelli open-weight su corpus scritti da umani
Si concentra sui meccanismi di decoding (Top-p, Top-k, Min-p)
Pubblicato su arXiv con ID 2605.27268
Affronta le critiche sulla ripetitività del testo degli LLM
Quantifica la soppressione della diversità linguistica
Mostra parole irraggiungibili nonostante siano nello spazio di probabilità

Nuova metrica misura la perdita di diversità lessicale nel decoding degli LLM

Fatti principali

Entità

Istituzioni

Fonti