ARTFEED — Contemporary Art Intelligence

Nuova metrica misura la perdita di diversità lessicale nel decoding degli LLM

ai-technology · 2026-05-27

I ricercatori hanno introdotto il Word Coverage Score (WCS), una metrica che quantifica come i filtri di campionamento standard come Top-p, Top-k e Min-p sopprimano le parole a bassa frequenza e ad alto contenuto informativo nei modelli linguistici di grandi dimensioni (LLM). Lo studio, pubblicato su arXiv (2605.27268), analizza modelli open-weight su frammenti di corpus scritti da umani per misurare i tassi di sopravvivenza lessicale. I risultati forniscono prove quantitative che i meccanismi di decoding, non solo la conoscenza del modello, contribuiscono alla generazione di testo ripetitivo e omogeneo. Il WCS valuta quali parole umane contestualmente appropriate diventano irraggiungibili a causa del pruning matematico, anche quando esistono nello spazio di probabilità.

Fatti principali

  • Introdotto il Word Coverage Score (WCS) come metrica
  • Misura il tasso di sopravvivenza lessicale delle parole a bassa frequenza
  • Analizza modelli open-weight su corpus scritti da umani
  • Si concentra sui meccanismi di decoding (Top-p, Top-k, Min-p)
  • Pubblicato su arXiv con ID 2605.27268
  • Affronta le critiche sulla ripetitività del testo degli LLM
  • Quantifica la soppressione della diversità linguistica
  • Mostra parole irraggiungibili nonostante siano nello spazio di probabilità

Entità

Istituzioni

  • arXiv

Fonti