ARTFEED — Contemporary Art Intelligence

TFGN: Pre-addestramento Continuo Senza Dimenticanza Catastrofica su Scala LLM

ai-technology · 2026-05-16

I ricercatori hanno introdotto un innovativo miglioramento architetturale per i modelli linguistici transformer chiamato TFGN. Questa innovazione facilita il pre-addestramento continuo senza necessità di buffer di replay, identificatori di compiti o penalità di regolarizzazione. TFGN è stato valutato in sei diversi campi testuali—Prosa, Python, Matematica, Biomedicina, Cinese e JavaScript—utilizzando 1 miliardo di token per fase su tre dimensioni di modello (~398M, ~739M, ~9B) e due strategie (Da Zero e Retrofit). I risultati hanno indicato un trasferimento all'indietro di -0.007 per LLaMA 3.1 8B Retrofit, con tassi di ritenzione HellaSwag di 0.506/0.504/0.510, e hanno raggiunto oltre il 99.59% di separazione del gradiente L2-ortogonale tra coppie di domini. Questa tecnica offre aggiornamenti efficaci su misura per l'input, preservando la struttura del transformer e affrontando la dimenticanza catastrofica nei modelli linguistici di grandi dimensioni.

Fatti principali

  • TFGN è un sovrapposto architetturale per modelli linguistici transformer.
  • Consente il pre-addestramento continuo senza buffer di replay, identificatori di compiti o penalità di regolarizzazione.
  • Testato su sei domini: Prosa, Python, Matematica, Biomedicina, Cinese, JavaScript.
  • 1 miliardo di token per fase su tre scale di modello: ~398M, ~739M, ~9B.
  • Due regimi: Da Zero e Retrofit.
  • Trasferimento all'indietro di -0.007 su LLaMA 3.1 8B Retrofit.
  • Ritenzione HellaSwag: 0.506/0.504/0.510.
  • >=99.59% di separazione del gradiente L2-ortogonale tra coppie di domini.

Entità

Istituzioni

  • arXiv

Fonti