ARTFEED — Contemporary Art Intelligence

Dr. Post-Training: Regolarizzazione dei dati per il post-training dei LLM

ai-technology · 2026-05-11

Un nuovo framework, Dr. Post-Training (Data-Regularized Post-Training), riconcettualizza i dati di training generali come un regolarizzatore indotto dai dati nel post-training dei LLM. Invece di selezionare i dati, costruisce un insieme ammissibile di direzioni di aggiornamento del modello a partire dai dati generali e proietta l'aggiornamento dei dati target su tale insieme. Ciò previene l'overfitting sui dati target scarsi. I metodi standard di training e selezione dei dati sono casi speciali di questo framework. Il lavoro è pubblicato su arXiv con identificatore 2605.07063.

Fatti principali

  • Dr. Post-Training è un framework di regolarizzazione dei dati per il post-training dei LLM.
  • Tratta i dati di training generali come un regolarizzatore, non come un pool di selezione.
  • Ad ogni passo, costruisce un insieme ammissibile di direzioni di aggiornamento dai dati generali.
  • Proietta la direzione di aggiornamento dei dati target su tale insieme ammissibile.
  • I metodi standard di training e selezione dei dati sono casi speciali di questo framework.
  • L'articolo è su arXiv con ID 2605.07063.
  • L'approccio affronta l'overfitting sui dati target scarsi.
  • Supera la cornice della selezione dei dati.

Entità

Istituzioni

  • arXiv

Fonti