I dati di pre-addestramento determinano lo scaling loss-to-loss dei LLM
Un nuovo studio rivela che i dati di pre-addestramento sono il fattore principale che influenza lo scaling loss-to-loss nei modelli linguistici di grandi dimensioni (LLM), mentre la dimensione del modello, gli iperparametri di ottimizzazione, i tokenizer e le differenze architetturali hanno un impatto limitato. La ricerca, pubblicata su arXiv (2502.12120v3), ha confrontato modelli basati su transformer come Llama e modelli state-space come Mamba. I risultati suggeriscono che i professionisti dovrebbero dare priorità alla cura di dataset di pre-addestramento adatti per ottenere prestazioni ottimali a valle, poiché le architetture e altre impostazioni possono essere ottimizzate liberamente senza influenzare significativamente le tendenze di scaling.
Fatti principali
- I dati di pre-addestramento determinano le tendenze di scaling loss-to-loss.
- La dimensione del modello, gli iperparametri di ottimizzazione, i tokenizer e le differenze architetturali hanno un impatto limitato.
- Lo studio ha confrontato i modelli Llama (transformer) e Mamba (state-space).
- Pubblicato su arXiv con ID 2502.12120v3.
- Lo scaling loss-to-loss mette in relazione le perdite tra dataset di pre-addestramento e compiti a valle.
- Le leggi di scaling guidano il bilanciamento ottimale di dimensione del modello, token e potenza di calcolo.
- I professionisti dovrebbero curare attentamente i dataset di pre-addestramento.
- Le architetture e altre impostazioni possono essere ottimizzate liberamente.
Entità
Istituzioni
- arXiv