Nuova metrica misura la perdita di diversità lessicale nel decoding degli LLM
I ricercatori hanno introdotto il Word Coverage Score (WCS), una metrica che quantifica come i filtri di campionamento standard come Top-p, Top-k e Min-p sopprimano le parole a bassa frequenza e ad alto contenuto informativo nei modelli linguistici di grandi dimensioni (LLM). Lo studio, pubblicato su arXiv (2605.27268), analizza modelli open-weight su frammenti di corpus scritti da umani per misurare i tassi di sopravvivenza lessicale. I risultati forniscono prove quantitative che i meccanismi di decoding, non solo la conoscenza del modello, contribuiscono alla generazione di testo ripetitivo e omogeneo. Il WCS valuta quali parole umane contestualmente appropriate diventano irraggiungibili a causa del pruning matematico, anche quando esistono nello spazio di probabilità.
Fatti principali
- Introdotto il Word Coverage Score (WCS) come metrica
- Misura il tasso di sopravvivenza lessicale delle parole a bassa frequenza
- Analizza modelli open-weight su corpus scritti da umani
- Si concentra sui meccanismi di decoding (Top-p, Top-k, Min-p)
- Pubblicato su arXiv con ID 2605.27268
- Affronta le critiche sulla ripetitività del testo degli LLM
- Quantifica la soppressione della diversità linguistica
- Mostra parole irraggiungibili nonostante siano nello spazio di probabilità
Entità
Istituzioni
- arXiv