Dr. Post-Training: Regolarizzazione dei dati per il post-training dei LLM
Un nuovo framework, Dr. Post-Training (Data-Regularized Post-Training), riconcettualizza i dati di training generali come un regolarizzatore indotto dai dati nel post-training dei LLM. Invece di selezionare i dati, costruisce un insieme ammissibile di direzioni di aggiornamento del modello a partire dai dati generali e proietta l'aggiornamento dei dati target su tale insieme. Ciò previene l'overfitting sui dati target scarsi. I metodi standard di training e selezione dei dati sono casi speciali di questo framework. Il lavoro è pubblicato su arXiv con identificatore 2605.07063.
Fatti principali
- Dr. Post-Training è un framework di regolarizzazione dei dati per il post-training dei LLM.
- Tratta i dati di training generali come un regolarizzatore, non come un pool di selezione.
- Ad ogni passo, costruisce un insieme ammissibile di direzioni di aggiornamento dai dati generali.
- Proietta la direzione di aggiornamento dei dati target su tale insieme ammissibile.
- I metodi standard di training e selezione dei dati sono casi speciali di questo framework.
- L'articolo è su arXiv con ID 2605.07063.
- L'approccio affronta l'overfitting sui dati target scarsi.
- Supera la cornice della selezione dei dati.
Entità
Istituzioni
- arXiv