Dr. Post-Training: Regolarizzazione dei dati per il post-training dei LLM

ai-technology · 2026-05-11

Un nuovo framework, Dr. Post-Training (Data-Regularized Post-Training), riconcettualizza i dati di training generali come un regolarizzatore indotto dai dati nel post-training dei LLM. Invece di selezionare i dati, costruisce un insieme ammissibile di direzioni di aggiornamento del modello a partire dai dati generali e proietta l'aggiornamento dei dati target su tale insieme. Ciò previene l'overfitting sui dati target scarsi. I metodi standard di training e selezione dei dati sono casi speciali di questo framework. Il lavoro è pubblicato su arXiv con identificatore 2605.07063.

Fatti principali

Dr. Post-Training è un framework di regolarizzazione dei dati per il post-training dei LLM.
Tratta i dati di training generali come un regolarizzatore, non come un pool di selezione.
Ad ogni passo, costruisce un insieme ammissibile di direzioni di aggiornamento dai dati generali.
Proietta la direzione di aggiornamento dei dati target su tale insieme ammissibile.
I metodi standard di training e selezione dei dati sono casi speciali di questo framework.
L'articolo è su arXiv con ID 2605.07063.
L'approccio affronta l'overfitting sui dati target scarsi.
Supera la cornice della selezione dei dati.

Dr. Post-Training: Regolarizzazione dei dati per il post-training dei LLM

Fatti principali

Entità

Istituzioni

Fonti