Quadro di Valutazione dei Dati a Livello di Token per LLM
Un nuovo quadro per la valutazione dei dati nei modelli linguistici di grandi dimensioni (LLM) passa dalle tradizionali tecniche statiche di conteggio delle righe a un modello di prezzo basato sull'utilità. Questa metodologia è strutturata in tre livelli: metriche per la densità informativa a livello di token utilizzando l'entropia di Shannon e i punteggi di qualità dei dati; misurazione dei guadagni empirici di addestramento tramite funzioni di influenza, approcci con modelli proxy e valori di Shapley dei dati; e verifica crittografica tramite impegni basati su hash, alberi di Merkle e un registro di addestramento a prova di manomissione. Test sperimentali in seguimento di istruzioni, ragionamento matematico e riepilogo del codice indicano che il guadagno empirico basato su proxy si allinea strettamente con l'utilità reale, raggiungendo una coerenza di classificazione quasi perfetta.
Fatti principali
- I metodi tradizionali di valutazione dei dati basati su 'conteggio righe × coefficiente di qualità' falliscono per gli LLM.
- Il quadro utilizza metriche di densità informativa a livello di token con entropia di Shannon e punteggi di qualità dei dati.
- Il guadagno empirico di addestramento è misurato tramite funzioni di influenza, strategie con modelli proxy e valori di Shapley dei dati.
- La verificabilità crittografica utilizza impegni basati su hash, alberi di Merkle e un registro di addestramento a prova di manomissione.
- La validazione sperimentale copre tre domini: seguimento di istruzioni, ragionamento matematico e riepilogo del codice.
- Il guadagno empirico basato su proxy raggiunge un allineamento di classificazione quasi perfetto con l'utilità realizzata.
- L'articolo è pubblicato su arXiv con ID 2604.22893.
- Il quadro passa dalla contabilità statica al prezzo basato sull'utilità.
Entità
Istituzioni
- arXiv