TFGN: Pre-addestramento Continuo Senza Dimenticanza Catastrofica su Scala LLM

ai-technology · 2026-05-16

I ricercatori hanno introdotto un innovativo miglioramento architetturale per i modelli linguistici transformer chiamato TFGN. Questa innovazione facilita il pre-addestramento continuo senza necessità di buffer di replay, identificatori di compiti o penalità di regolarizzazione. TFGN è stato valutato in sei diversi campi testuali—Prosa, Python, Matematica, Biomedicina, Cinese e JavaScript—utilizzando 1 miliardo di token per fase su tre dimensioni di modello (~398M, ~739M, ~9B) e due strategie (Da Zero e Retrofit). I risultati hanno indicato un trasferimento all'indietro di -0.007 per LLaMA 3.1 8B Retrofit, con tassi di ritenzione HellaSwag di 0.506/0.504/0.510, e hanno raggiunto oltre il 99.59% di separazione del gradiente L2-ortogonale tra coppie di domini. Questa tecnica offre aggiornamenti efficaci su misura per l'input, preservando la struttura del transformer e affrontando la dimenticanza catastrofica nei modelli linguistici di grandi dimensioni.

Fatti principali

TFGN è un sovrapposto architetturale per modelli linguistici transformer.
Consente il pre-addestramento continuo senza buffer di replay, identificatori di compiti o penalità di regolarizzazione.
Testato su sei domini: Prosa, Python, Matematica, Biomedicina, Cinese, JavaScript.
1 miliardo di token per fase su tre scale di modello: ~398M, ~739M, ~9B.
Due regimi: Da Zero e Retrofit.
Trasferimento all'indietro di -0.007 su LLaMA 3.1 8B Retrofit.
Ritenzione HellaSwag: 0.506/0.504/0.510.
>=99.59% di separazione del gradiente L2-ortogonale tra coppie di domini.

TFGN: Pre-addestramento Continuo Senza Dimenticanza Catastrofica su Scala LLM

Fatti principali

Entità

Istituzioni

Fonti