Ottimizzazione del Rapporto di Miscela Linguistica per il Continual Pre-Training di Llama-3
Un nuovo articolo su arXiv (2409.06624) indaga la selezione ottimale del Rapporto di Miscela Linguistica Aggiuntiva (ALMR) e del Tasso di Apprendimento (LR) per il Continual Pre-Training (CPT) di modelli linguistici di grandi dimensioni (LLM) al fine di migliorare le competenze in lingua cinese. Lo studio esegue CPT sui modelli Llama-3 8B e 70B, stabilendo una correlazione tra ALMR e LR sulla dimensione 8B che indica direttamente l'impostazione sperimentale ottimale. Attraverso la regolazione degli iperparametri e il successivo fine-tuning, le prestazioni del modello migliorano nei benchmark relativi al cinese e in domini specifici. La ricerca colma il divario tra le leggi di scala sperimentali e l'implementazione del modello a grandezza naturale, fornendo una guida sistematica per la selezione degli iperparametri del CPT.
Fatti principali
- Articolo arXiv:2409.06624v4
- Si concentra sul Continual Pre-Training (CPT) per Llama-3 8B e 70B
- Migliora la competenza in lingua cinese
- Studia il Rapporto di Miscela Linguistica Aggiuntiva (ALMR) e il Tasso di Apprendimento (LR) ottimali
- Colma il divario tra le leggi di scala sperimentali e l'implementazione completa del modello
- Migliora le prestazioni nei benchmark relativi al cinese
- Coinvolge la regolazione degli iperparametri e il fine-tuning
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv