SparseRL-Sync: ~100x Meno Comunicazione per la Sincronizzazione dei Pesi nel RL

ai-technology · 2026-05-11

Un nuovo metodo chiamato SparseRL-Sync riduce i costi di comunicazione per la sincronizzazione dei pesi nei sistemi di reinforcement learning su larga scala fino a 100x. Nelle architetture disaccoppiate Trainer-Rollout, il Trainer deve sincronizzare regolarmente i pesi delle politiche con il lato Rollout per prevenire l'obsolescenza delle politiche. Con l'aumento delle dimensioni dei modelli, la domanda di comunicazione cresce, diventando un collo di bottiglia in ambienti con larghezza di banda limitata o rete variabile, come configurazioni cross-datacenter, pool di risorse eterogenei e RL online. L'osservazione chiave è che le modifiche ai parametri sono altamente sparse a livello di elemento, spesso superando il 99% di sparsità. SparseRL-Sync sostituisce i trasferimenti completi dei pesi con un payload di aggiornamento sparso senza perdita costituito da indici e valori dei parametri modificati. L'articolo è disponibile su arXiv con ID 2605.07330.

Fatti principali

SparseRL-Sync riduce la comunicazione per la sincronizzazione dei pesi nel RL di circa 100x.
Si rivolge a sistemi disaccoppiati Trainer-Rollout in cui il Trainer sincronizza i pesi con il Rollout.
Le modifiche ai parametri sono spesso >99% sparse a livello di elemento.
Il metodo utilizza payload di aggiornamento sparso senza perdita invece di trasferimenti completi dei pesi.
Affronta i colli di bottiglia in ambienti cross-datacenter, cross-cluster e RL online.
L'articolo è pubblicato su arXiv con ID 2605.07330.
L'approccio è senza perdita, il che significa che non viene sacrificata alcuna accuratezza.
È progettato per ambienti con larghezza di banda limitata o rete variabile.

SparseRL-Sync: ~100x Meno Comunicazione per la Sincronizzazione dei Pesi nel RL

Fatti principali

Entità

Istituzioni

Fonti