Google DeepMind presenta Decoupled DiLoCo per l'addestramento AI distribuito
Google DeepMind e Google Research hanno introdotto Decoupled DiLoCo, un framework innovativo per l'addestramento di grandi modelli linguistici su data center remoti. Questo sistema aumenta la resilienza hardware e riduce le esigenze di larghezza di banda. Suddividendo l'addestramento in 'isole' di calcolo separate, consente di isolare i problemi locali mentre altre unità continuano ad apprendere. Basandosi su progressi precedenti come Pathways e DiLoCo, riduce i ritardi che in precedenza influenzavano le tecniche distribuite globali. I test con i modelli Gemma 4 hanno mostrato una disponibilità costante e prestazioni simili ai metodi tradizionali, anche durante problemi hardware. Hanno addestrato con successo un modello da 12 miliardi di parametri in quattro regioni degli Stati Uniti utilizzando reti ad alta velocità, oltre 20 volte più velocemente dei metodi tradizionali. Il progetto è stato guidato da Arthur Douillard e un team di talento.
Fatti principali
- Decoupled DiLoCo è una nuova architettura distribuita per l'addestramento di LLM su data center distanti.
- Divide le sessioni di addestramento in 'isole' di calcolo disaccoppiate (unità di apprendimento) con flusso di dati asincrono.
- L'approccio isola le interruzioni locali in modo che altre parti continuino ad apprendere in modo efficiente.
- Si basa sui progressi precedenti Pathways e DiLoCo.
- I test con i modelli Gemma 4 hanno mostrato una disponibilità mantenuta e prestazioni ML equivalenti nonostante i guasti hardware.
- Addestrato con successo un modello da 12 miliardi di parametri in quattro regioni degli Stati Uniti utilizzando reti WAN da 2-5 Gbps.
- Risultati oltre 20 volte più veloci rispetto ai metodi di sincronizzazione convenzionali.
- Consente di mescolare diverse generazioni hardware (es. TPU v6e e TPU v5p) in una singola sessione di addestramento.
- Il lavoro è stato svolto da un team di Google DeepMind e Google Research.
- I responsabili includono Arthur Douillard, Keith Rush, Yani Donchev, Zachary Charles, Ayush Dubey, Blake Woodworth, Ionel Gog, Josef Dean, Nova Fallen, Zachary Garrett.
Entità
Istituzioni
- Google DeepMind
- Google Research
Luoghi
- United States