ARTFEED — Contemporary Art Intelligence

Nuovo quadro corregge i bias negli ottimizzatori precondizionati per modelli linguistici

other · 2026-05-22

Una recente pubblicazione su arXiv (2605.20756) presenta un nuovo quadro volto a correggere due bias a campione finito presenti negli ottimizzatori precondizionati utilizzati per l'addestramento di modelli linguistici. I ricercatori individuano due bias specifici: il bias di accoppiamento gradiente-precondizionatore, che si verifica quando entrambi sono stimati dallo stesso minibatch, e il bias di inversione, derivante dall'inversione non lineare di stime imparziali del precondizionatore. Il loro metodo per la correzione dei bias all'interno di un singolo batch impiega il precondizionamento a incrocio (dove numeratore e precondizionatore sono derivati da gruppi separati di micro-batch) e l'inversione corretta per varianza (che aggiusta il bias principale del metodo delta utilizzando la variabilità dei micro-batch). Questo quadro è applicabile a varie tecniche di precondizionamento, tra cui AdamW, Sophia e altre, colmando una lacuna significativa nella teoria dell'ottimizzazione stocastica per modelli linguistici su larga scala.

Fatti principali

  • L'articolo è su arXiv con ID 2605.20756
  • Identifica il bias di accoppiamento gradiente-precondizionatore
  • Identifica il bias di inversione dall'inversione non lineare
  • Propone il precondizionamento a incrocio
  • Propone l'inversione corretta per varianza
  • Si applica ad AdamW, Sophia e altri ottimizzatori
  • Affronta i bias a campione finito nell'ottimizzazione stocastica
  • Si concentra sull'addestramento di modelli linguistici

Entità

Istituzioni

  • arXiv

Fonti