Nuovo quadro corregge i bias negli ottimizzatori precondizionati per modelli linguistici

other · 2026-05-22

Una recente pubblicazione su arXiv (2605.20756) presenta un nuovo quadro volto a correggere due bias a campione finito presenti negli ottimizzatori precondizionati utilizzati per l'addestramento di modelli linguistici. I ricercatori individuano due bias specifici: il bias di accoppiamento gradiente-precondizionatore, che si verifica quando entrambi sono stimati dallo stesso minibatch, e il bias di inversione, derivante dall'inversione non lineare di stime imparziali del precondizionatore. Il loro metodo per la correzione dei bias all'interno di un singolo batch impiega il precondizionamento a incrocio (dove numeratore e precondizionatore sono derivati da gruppi separati di micro-batch) e l'inversione corretta per varianza (che aggiusta il bias principale del metodo delta utilizzando la variabilità dei micro-batch). Questo quadro è applicabile a varie tecniche di precondizionamento, tra cui AdamW, Sophia e altre, colmando una lacuna significativa nella teoria dell'ottimizzazione stocastica per modelli linguistici su larga scala.

Fatti principali

L'articolo è su arXiv con ID 2605.20756
Identifica il bias di accoppiamento gradiente-precondizionatore
Identifica il bias di inversione dall'inversione non lineare
Propone il precondizionamento a incrocio
Propone l'inversione corretta per varianza
Si applica ad AdamW, Sophia e altri ottimizzatori
Affronta i bias a campione finito nell'ottimizzazione stocastica
Si concentra sull'addestramento di modelli linguistici

Nuovo quadro corregge i bias negli ottimizzatori precondizionati per modelli linguistici

Fatti principali

Entità

Istituzioni

Fonti