TFGN: Pre-addestramento Continuo Senza Dimenticanza Catastrofica su Scala LLM
I ricercatori hanno introdotto un innovativo miglioramento architetturale per i modelli linguistici transformer chiamato TFGN. Questa innovazione facilita il pre-addestramento continuo senza necessità di buffer di replay, identificatori di compiti o penalità di regolarizzazione. TFGN è stato valutato in sei diversi campi testuali—Prosa, Python, Matematica, Biomedicina, Cinese e JavaScript—utilizzando 1 miliardo di token per fase su tre dimensioni di modello (~398M, ~739M, ~9B) e due strategie (Da Zero e Retrofit). I risultati hanno indicato un trasferimento all'indietro di -0.007 per LLaMA 3.1 8B Retrofit, con tassi di ritenzione HellaSwag di 0.506/0.504/0.510, e hanno raggiunto oltre il 99.59% di separazione del gradiente L2-ortogonale tra coppie di domini. Questa tecnica offre aggiornamenti efficaci su misura per l'input, preservando la struttura del transformer e affrontando la dimenticanza catastrofica nei modelli linguistici di grandi dimensioni.
Fatti principali
- TFGN è un sovrapposto architetturale per modelli linguistici transformer.
- Consente il pre-addestramento continuo senza buffer di replay, identificatori di compiti o penalità di regolarizzazione.
- Testato su sei domini: Prosa, Python, Matematica, Biomedicina, Cinese, JavaScript.
- 1 miliardo di token per fase su tre scale di modello: ~398M, ~739M, ~9B.
- Due regimi: Da Zero e Retrofit.
- Trasferimento all'indietro di -0.007 su LLaMA 3.1 8B Retrofit.
- Ritenzione HellaSwag: 0.506/0.504/0.510.
- >=99.59% di separazione del gradiente L2-ortogonale tra coppie di domini.
Entità
Istituzioni
- arXiv