Quadro di Valutazione dei Dati a Livello di Token per LLM

other · 2026-04-29

Un nuovo quadro per la valutazione dei dati nei modelli linguistici di grandi dimensioni (LLM) passa dalle tradizionali tecniche statiche di conteggio delle righe a un modello di prezzo basato sull'utilità. Questa metodologia è strutturata in tre livelli: metriche per la densità informativa a livello di token utilizzando l'entropia di Shannon e i punteggi di qualità dei dati; misurazione dei guadagni empirici di addestramento tramite funzioni di influenza, approcci con modelli proxy e valori di Shapley dei dati; e verifica crittografica tramite impegni basati su hash, alberi di Merkle e un registro di addestramento a prova di manomissione. Test sperimentali in seguimento di istruzioni, ragionamento matematico e riepilogo del codice indicano che il guadagno empirico basato su proxy si allinea strettamente con l'utilità reale, raggiungendo una coerenza di classificazione quasi perfetta.

Fatti principali

I metodi tradizionali di valutazione dei dati basati su 'conteggio righe × coefficiente di qualità' falliscono per gli LLM.
Il quadro utilizza metriche di densità informativa a livello di token con entropia di Shannon e punteggi di qualità dei dati.
Il guadagno empirico di addestramento è misurato tramite funzioni di influenza, strategie con modelli proxy e valori di Shapley dei dati.
La verificabilità crittografica utilizza impegni basati su hash, alberi di Merkle e un registro di addestramento a prova di manomissione.
La validazione sperimentale copre tre domini: seguimento di istruzioni, ragionamento matematico e riepilogo del codice.
Il guadagno empirico basato su proxy raggiunge un allineamento di classificazione quasi perfetto con l'utilità realizzata.
L'articolo è pubblicato su arXiv con ID 2604.22893.
Il quadro passa dalla contabilità statica al prezzo basato sull'utilità.

Quadro di Valutazione dei Dati a Livello di Token per LLM

Fatti principali

Entità

Istituzioni

Fonti