ARTFEED — Contemporary Art Intelligence

Ottimizzazione del Rapporto di Miscela Linguistica per il Continual Pre-Training di Llama-3

ai-technology · 2026-04-30

Un nuovo articolo su arXiv (2409.06624) indaga la selezione ottimale del Rapporto di Miscela Linguistica Aggiuntiva (ALMR) e del Tasso di Apprendimento (LR) per il Continual Pre-Training (CPT) di modelli linguistici di grandi dimensioni (LLM) al fine di migliorare le competenze in lingua cinese. Lo studio esegue CPT sui modelli Llama-3 8B e 70B, stabilendo una correlazione tra ALMR e LR sulla dimensione 8B che indica direttamente l'impostazione sperimentale ottimale. Attraverso la regolazione degli iperparametri e il successivo fine-tuning, le prestazioni del modello migliorano nei benchmark relativi al cinese e in domini specifici. La ricerca colma il divario tra le leggi di scala sperimentali e l'implementazione del modello a grandezza naturale, fornendo una guida sistematica per la selezione degli iperparametri del CPT.

Fatti principali

  • Articolo arXiv:2409.06624v4
  • Si concentra sul Continual Pre-Training (CPT) per Llama-3 8B e 70B
  • Migliora la competenza in lingua cinese
  • Studia il Rapporto di Miscela Linguistica Aggiuntiva (ALMR) e il Tasso di Apprendimento (LR) ottimali
  • Colma il divario tra le leggi di scala sperimentali e l'implementazione completa del modello
  • Migliora le prestazioni nei benchmark relativi al cinese
  • Coinvolge la regolazione degli iperparametri e il fine-tuning
  • Pubblicato su arXiv

Entità

Istituzioni

  • arXiv

Fonti