Nuovo quadro corregge i bias negli ottimizzatori precondizionati per modelli linguistici
Una recente pubblicazione su arXiv (2605.20756) presenta un nuovo quadro volto a correggere due bias a campione finito presenti negli ottimizzatori precondizionati utilizzati per l'addestramento di modelli linguistici. I ricercatori individuano due bias specifici: il bias di accoppiamento gradiente-precondizionatore, che si verifica quando entrambi sono stimati dallo stesso minibatch, e il bias di inversione, derivante dall'inversione non lineare di stime imparziali del precondizionatore. Il loro metodo per la correzione dei bias all'interno di un singolo batch impiega il precondizionamento a incrocio (dove numeratore e precondizionatore sono derivati da gruppi separati di micro-batch) e l'inversione corretta per varianza (che aggiusta il bias principale del metodo delta utilizzando la variabilità dei micro-batch). Questo quadro è applicabile a varie tecniche di precondizionamento, tra cui AdamW, Sophia e altre, colmando una lacuna significativa nella teoria dell'ottimizzazione stocastica per modelli linguistici su larga scala.
Fatti principali
- L'articolo è su arXiv con ID 2605.20756
- Identifica il bias di accoppiamento gradiente-precondizionatore
- Identifica il bias di inversione dall'inversione non lineare
- Propone il precondizionamento a incrocio
- Propone l'inversione corretta per varianza
- Si applica ad AdamW, Sophia e altri ottimizzatori
- Affronta i bias a campione finito nell'ottimizzazione stocastica
- Si concentra sull'addestramento di modelli linguistici
Entità
Istituzioni
- arXiv