I dati di pre-addestramento determinano lo scaling loss-to-loss dei LLM

ai-technology · 2026-05-22

Un nuovo studio rivela che i dati di pre-addestramento sono il fattore principale che influenza lo scaling loss-to-loss nei modelli linguistici di grandi dimensioni (LLM), mentre la dimensione del modello, gli iperparametri di ottimizzazione, i tokenizer e le differenze architetturali hanno un impatto limitato. La ricerca, pubblicata su arXiv (2502.12120v3), ha confrontato modelli basati su transformer come Llama e modelli state-space come Mamba. I risultati suggeriscono che i professionisti dovrebbero dare priorità alla cura di dataset di pre-addestramento adatti per ottenere prestazioni ottimali a valle, poiché le architetture e altre impostazioni possono essere ottimizzate liberamente senza influenzare significativamente le tendenze di scaling.

Fatti principali

I dati di pre-addestramento determinano le tendenze di scaling loss-to-loss.
La dimensione del modello, gli iperparametri di ottimizzazione, i tokenizer e le differenze architetturali hanno un impatto limitato.
Lo studio ha confrontato i modelli Llama (transformer) e Mamba (state-space).
Pubblicato su arXiv con ID 2502.12120v3.
Lo scaling loss-to-loss mette in relazione le perdite tra dataset di pre-addestramento e compiti a valle.
Le leggi di scaling guidano il bilanciamento ottimale di dimensione del modello, token e potenza di calcolo.
I professionisti dovrebbero curare attentamente i dataset di pre-addestramento.
Le architetture e altre impostazioni possono essere ottimizzate liberamente.

I dati di pre-addestramento determinano lo scaling loss-to-loss dei LLM

Fatti principali

Entità

Istituzioni

Fonti