Hugging Face Introduce Delta Weight Sync per un Efficiente Addestramento RL Asincrono
Hugging Face ha lanciato Delta Weight Sync, una nuova tecnica per l'apprendimento per rinforzo (RL) asincrono che riduce notevolmente il trasferimento di dati tra motori di inferenza e trainer. Il sistema rileva che il 99% dei pesi bf16 non cambia tra i passi dell'ottimizzatore, consentendo di trasmettere solo i componenti modificati, riducendo il carico di dati da 1,2 GB a 20-35 MB per passo. Il file delta viene archiviato in un Hugging Face Bucket, permettendo al motore di inferenza vLLM di recuperarlo senza necessità di accesso diretto alla rete, facilitando l'addestramento disaggregato su più macchine o località. Questo metodo si basa su scoperte di Fireworks AI e Cursor. La PR (huggingface/trl#5417) include un BF16ChangeDetector e un'estensione vLLM di 30 righe per aggiornamenti sparsi. Per un modello da 405B, il delta è di circa 6 GB per passo rispetto a 810 GB per la sincronizzazione completa.
Fatti principali
- Delta Weight Sync riduce il payload per passo da 1,2 GB a 20-35 MB per Qwen3-0.6B
- Il 99% dei pesi bf16 è bit-identico tra passi consecutivi dell'ottimizzatore RL
- Utilizza Hugging Face Bucket come archivio oggetti condiviso per il trasferimento dei pesi
- Nessuna connettività diretta richiesta tra trainer e cluster di inferenza
- Dimostrato addestramento completamente disaggregato su tre macchine separate
- Basato su osservazioni di Fireworks AI e Cursor
- PR disponibile su huggingface/trl#5417
- Supporta inferenza multi-replica senza overhead aggiuntivo
Entità
Istituzioni
- Hugging Face
- Fireworks AI
- Cursor
- vLLM