ARTFEED — Contemporary Art Intelligence

Quadro di Trasporto a Gradiente per il Pretraining di LLM

other · 2026-05-07

È stato sviluppato un nuovo quadro di trasporto a gradiente a dimensione finita per l'addestramento di modelli linguistici, che utilizza cinque osservabili (D, z, β, δ, v_rel) per differenziare tra dimensione della cascata, durata, trasporto assoluto ed efficienza del trasporto intensivo. Questo quadro esamina i dati di gradiente grezzo da Pico-LM su quattro scale e 125 passi allineati, insieme a un dataset complementare da Pythia, composto da cinque scale derivate da 153 campi di aggiornamento di checkpoint differenza allineati. Mentre entrambi i dataset mostrano una struttura portante della dimensione della cascata quasi identica, operano in regimi di trasporto diversi: Pico-LM mostra scaling positivo nella durata e scaling negativo nell'efficienza intensiva, mentre Pythia rimane vicino alla linea di base D=1 con una dipendenza positiva minima dalla scala di efficienza. I controlli con campo randomizzato mostrano piani nulli quasi equivalenti sia nei canali intensivi che in quelli di durata, suggerendo che le differenze osservate sono significative.

Fatti principali

  • Il quadro utilizza cinque osservabili: D, z, β, δ, v_rel
  • Pico-LM analizzato su quattro scale e 125 passi allineati
  • Dataset Pythia costruito da 153 campi di aggiornamento di checkpoint differenza allineati
  • Entrambe le famiglie condividono una struttura portante della dimensione della cascata quasi unitaria
  • Pico-LM mostra scaling positivo della durata e scaling negativo dell'efficienza intensiva
  • Pythia rimane vicino alla linea di base D=1 con debole dipendenza positiva dalla scala di efficienza
  • I controlli con campo randomizzato danno piani nulli quasi corrispondenti
  • Il contrasto riflette deviazioni reali

Entità

Fonti