L'algoritmo StoSignSGD risolve i problemi di divergenza di SignSGD per l'addestramento di modelli linguistici di grandi dimensioni

ai-technology · 2026-04-20

È stato sviluppato un nuovo algoritmo di ottimizzazione chiamato StoSignSGD per affrontare i problemi di divergenza di SignSGD durante l'addestramento di modelli fondazionali di grandi dimensioni. I metodi di ottimizzazione basati sul segno come SignSGD hanno mostrato risultati impressionanti in ambienti di apprendimento distribuito e con modelli linguistici di grandi dimensioni, ma non convergono su obiettivi non lisci comunemente presenti nelle architetture di apprendimento automatico moderne. Queste funzioni non lisce derivano da componenti come ReLU, livelli di max-pooling e sistemi mixture-of-experts. Il proposto StoSignSGD introduce una stocasticità strutturale nell'operatore di segno preservando un passo di aggiornamento non distorto. L'analisi teorica dimostra che StoSignSGD raggiunge un tasso di convergenza netto che corrisponde al limite inferiore per problemi di ottimizzazione convessa (online). Per scenari di ottimizzazione non convessa e non liscia più complessi, i ricercatori hanno sviluppato misure stazionarie generalizzate che includono definizioni precedenti, dimostrando le prestazioni superiori di StoSignSGD. L'algoritmo si rivolge specificamente all'addestramento di modelli linguistici di grandi dimensioni dove i precedenti metodi basati sul segno hanno avuto difficoltà con la convergenza. Questa ricerca affronta una limitazione fondamentale nelle tecniche di ottimizzazione per i sistemi di apprendimento automatico contemporanei. Il lavoro è stato annunciato su arXiv con identificatore 2604.15416v1 come contributo interdisciplinare.

Fatti principali

StoSignSGD è un nuovo algoritmo di ottimizzazione che risolve i problemi di divergenza di SignSGD
SignSGD ha mostrato prestazioni notevoli nell'apprendimento distribuito e nell'addestramento di modelli fondazionali di grandi dimensioni
SignSGD diverge su obiettivi non lisci comuni nell'apprendimento automatico moderno
Gli obiettivi non lisci derivano da ReLU, max-pool e sistemi mixture-of-experts
StoSignSGD inietta stocasticità strutturale mantenendo aggiornamenti non distorti
L'analisi teorica mostra che StoSignSGD raggiunge un tasso di convergenza netto corrispondente al limite inferiore
I ricercatori hanno introdotto misure stazionarie generalizzate per l'ottimizzazione non convessa e non liscia
L'algoritmo si rivolge specificamente all'addestramento di modelli linguistici di grandi dimensioni

L'algoritmo StoSignSGD risolve i problemi di divergenza di SignSGD per l'addestramento di modelli linguistici di grandi dimensioni

Fatti principali

Entità

Istituzioni

Fonti