Quadro di Trasporto a Gradiente per il Pretraining di LLM
È stato sviluppato un nuovo quadro di trasporto a gradiente a dimensione finita per l'addestramento di modelli linguistici, che utilizza cinque osservabili (D, z, β, δ, v_rel) per differenziare tra dimensione della cascata, durata, trasporto assoluto ed efficienza del trasporto intensivo. Questo quadro esamina i dati di gradiente grezzo da Pico-LM su quattro scale e 125 passi allineati, insieme a un dataset complementare da Pythia, composto da cinque scale derivate da 153 campi di aggiornamento di checkpoint differenza allineati. Mentre entrambi i dataset mostrano una struttura portante della dimensione della cascata quasi identica, operano in regimi di trasporto diversi: Pico-LM mostra scaling positivo nella durata e scaling negativo nell'efficienza intensiva, mentre Pythia rimane vicino alla linea di base D=1 con una dipendenza positiva minima dalla scala di efficienza. I controlli con campo randomizzato mostrano piani nulli quasi equivalenti sia nei canali intensivi che in quelli di durata, suggerendo che le differenze osservate sono significative.
Fatti principali
- Il quadro utilizza cinque osservabili: D, z, β, δ, v_rel
- Pico-LM analizzato su quattro scale e 125 passi allineati
- Dataset Pythia costruito da 153 campi di aggiornamento di checkpoint differenza allineati
- Entrambe le famiglie condividono una struttura portante della dimensione della cascata quasi unitaria
- Pico-LM mostra scaling positivo della durata e scaling negativo dell'efficienza intensiva
- Pythia rimane vicino alla linea di base D=1 con debole dipendenza positiva dalla scala di efficienza
- I controlli con campo randomizzato danno piani nulli quasi corrispondenti
- Il contrasto riflette deviazioni reali
Entità
—