Leggi di Scala dei Dati Collegate allo Spettro del Contributo Predittivo
Un nuovo studio pubblicato su arXiv (2605.20196) indica che i comportamenti di scala dei dati reali nell'apprendimento automatico sono modellati da una copertura dinamica di uno spettro latente del contributo predittivo, non solo dalle code di frequenza dei token. I ricercatori hanno utilizzato un modello di automazione dei suffissi per creare uno spettro del contributo predittivo globale-KL, dove l'impatto di ogni stato è calcolato come la sua massa empirica moltiplicata per la divergenza KL da una linea di base del token successivo globale. Un esame di 12 dataset reali ha mostrato un forte legame tra la pendenza della coda di questo spettro e l'esponente di scala di un piccolo learner GPT. Lo studio presenta anche un rango di troncamento efficace K(N) per la dimensione di addestramento N, con log K che mostra un andamento quasi lineare con log N, raggiungendo valori R² intorno a 0.96 per lo spettro grezzo e 0.90 per quello lisciato.
Fatti principali
- Lo studio indaga l'ipotesi che le leggi di scala dei dati siano governate dallo spettro del contributo predittivo.
- Utilizza una rappresentazione ad automazione dei suffissi dei corpora testuali.
- Definisce lo spettro del contributo predittivo globale-KL.
- Testato su 12 corpora reali.
- La pendenza della coda è correlata con l'esponente di scala dei dati di un learner GPT.
- Definisce il rango di troncamento efficace K(N) per ogni dimensione di addestramento N.
- log K è quasi lineare in log N.
- R² aggregato è 0.96 per lo spettro grezzo, 0.90 per quello lisciato.
Entità
Istituzioni
- arXiv