Hugging Face Introduce Delta Weight Sync per un Efficiente Addestramento RL Asincrono

ai-technology · 2026-05-27

Hugging Face ha lanciato Delta Weight Sync, una nuova tecnica per l'apprendimento per rinforzo (RL) asincrono che riduce notevolmente il trasferimento di dati tra motori di inferenza e trainer. Il sistema rileva che il 99% dei pesi bf16 non cambia tra i passi dell'ottimizzatore, consentendo di trasmettere solo i componenti modificati, riducendo il carico di dati da 1,2 GB a 20-35 MB per passo. Il file delta viene archiviato in un Hugging Face Bucket, permettendo al motore di inferenza vLLM di recuperarlo senza necessità di accesso diretto alla rete, facilitando l'addestramento disaggregato su più macchine o località. Questo metodo si basa su scoperte di Fireworks AI e Cursor. La PR (huggingface/trl#5417) include un BF16ChangeDetector e un'estensione vLLM di 30 righe per aggiornamenti sparsi. Per un modello da 405B, il delta è di circa 6 GB per passo rispetto a 810 GB per la sincronizzazione completa.

Fatti principali

Delta Weight Sync riduce il payload per passo da 1,2 GB a 20-35 MB per Qwen3-0.6B
Il 99% dei pesi bf16 è bit-identico tra passi consecutivi dell'ottimizzatore RL
Utilizza Hugging Face Bucket come archivio oggetti condiviso per il trasferimento dei pesi
Nessuna connettività diretta richiesta tra trainer e cluster di inferenza
Dimostrato addestramento completamente disaggregato su tre macchine separate
Basato su osservazioni di Fireworks AI e Cursor
PR disponibile su huggingface/trl#5417
Supporta inferenza multi-replica senza overhead aggiuntivo

Hugging Face Introduce Delta Weight Sync per un Efficiente Addestramento RL Asincrono

Fatti principali

Entità

Istituzioni

Fonti