FreeScale: Ridurre i Costi di Addestramento per i Modelli di Raccomandazione
Un nuovo sistema chiamato FreeScale mira a ridurre i costi computazionali nell'addestramento di modelli di raccomandazione sequenziale, affrontando la sotto-utilizzazione delle risorse causata da straggler e comunicazioni bloccanti. Utilizza campioni di input bilanciati, sovrapposizione prioritaria delle comunicazioni degli embedding e tecniche SM-Free per risolvere la competizione per le risorse GPU. I risultati empirici mostrano una riduzione fino al 90,3% delle bolle computazionali.
Fatti principali
- FreeScale è introdotto per mitigare i problemi di straggler nell'addestramento di modelli di raccomandazione.
- Utilizza campioni di input bilanciati per ridurre gli straggler.
- Le comunicazioni prioritarie degli embedding sono sovrapposte ai calcoli per minimizzare i blocchi.
- Le tecniche SM-Free risolvono la competizione per le risorse GPU durante la sovrapposizione.
- La valutazione empirica mostra una riduzione fino al 90,3% delle bolle computazionali.
- L'articolo è disponibile su arXiv con ID 2604.24073.
- Il sistema è mirato a moderni modelli di raccomandazione deep learning industriali.
- Le caratteristiche eterogenee dei dati causano sotto-utilizzazione delle risorse.
Entità
Istituzioni
- arXiv