Ottimizzazione del Rapporto di Miscela Linguistica per il Continual Pre-Training di Llama-3

ai-technology · 2026-04-30

Un nuovo articolo su arXiv (2409.06624) indaga la selezione ottimale del Rapporto di Miscela Linguistica Aggiuntiva (ALMR) e del Tasso di Apprendimento (LR) per il Continual Pre-Training (CPT) di modelli linguistici di grandi dimensioni (LLM) al fine di migliorare le competenze in lingua cinese. Lo studio esegue CPT sui modelli Llama-3 8B e 70B, stabilendo una correlazione tra ALMR e LR sulla dimensione 8B che indica direttamente l'impostazione sperimentale ottimale. Attraverso la regolazione degli iperparametri e il successivo fine-tuning, le prestazioni del modello migliorano nei benchmark relativi al cinese e in domini specifici. La ricerca colma il divario tra le leggi di scala sperimentali e l'implementazione del modello a grandezza naturale, fornendo una guida sistematica per la selezione degli iperparametri del CPT.

Fatti principali

Articolo arXiv:2409.06624v4
Si concentra sul Continual Pre-Training (CPT) per Llama-3 8B e 70B
Migliora la competenza in lingua cinese
Studia il Rapporto di Miscela Linguistica Aggiuntiva (ALMR) e il Tasso di Apprendimento (LR) ottimali
Colma il divario tra le leggi di scala sperimentali e l'implementazione completa del modello
Migliora le prestazioni nei benchmark relativi al cinese
Coinvolge la regolazione degli iperparametri e il fine-tuning
Pubblicato su arXiv

Ottimizzazione del Rapporto di Miscela Linguistica per il Continual Pre-Training di Llama-3

Fatti principali

Entità

Istituzioni

Fonti