Quadro di Trasporto a Gradiente per il Pretraining di LLM

other · 2026-05-07

È stato sviluppato un nuovo quadro di trasporto a gradiente a dimensione finita per l'addestramento di modelli linguistici, che utilizza cinque osservabili (D, z, β, δ, v_rel) per differenziare tra dimensione della cascata, durata, trasporto assoluto ed efficienza del trasporto intensivo. Questo quadro esamina i dati di gradiente grezzo da Pico-LM su quattro scale e 125 passi allineati, insieme a un dataset complementare da Pythia, composto da cinque scale derivate da 153 campi di aggiornamento di checkpoint differenza allineati. Mentre entrambi i dataset mostrano una struttura portante della dimensione della cascata quasi identica, operano in regimi di trasporto diversi: Pico-LM mostra scaling positivo nella durata e scaling negativo nell'efficienza intensiva, mentre Pythia rimane vicino alla linea di base D=1 con una dipendenza positiva minima dalla scala di efficienza. I controlli con campo randomizzato mostrano piani nulli quasi equivalenti sia nei canali intensivi che in quelli di durata, suggerendo che le differenze osservate sono significative.

Fatti principali

Il quadro utilizza cinque osservabili: D, z, β, δ, v_rel
Pico-LM analizzato su quattro scale e 125 passi allineati
Dataset Pythia costruito da 153 campi di aggiornamento di checkpoint differenza allineati
Entrambe le famiglie condividono una struttura portante della dimensione della cascata quasi unitaria
Pico-LM mostra scaling positivo della durata e scaling negativo dell'efficienza intensiva
Pythia rimane vicino alla linea di base D=1 con debole dipendenza positiva dalla scala di efficienza
I controlli con campo randomizzato danno piani nulli quasi corrispondenti
Il contrasto riflette deviazioni reali

Entità

—

Fonti

arXiv cs.AI — 2026-05-06