Nuova ricerca sull'IA migliora la previsione del tempo di addestramento per il deep learning distribuito a precisione mista
Un nuovo articolo di ricerca affronta una lacuna critica nella previsione del tempo di addestramento per i sistemi di deep learning distribuito. Lo studio rileva che le impostazioni di precisione in virgola mobile influenzano significativamente la durata dell'addestramento, causando variazioni di circa 2,4 volte il tempo minimo. I metodi di previsione esistenti falliscono perché si basano su grafici computazionali statici del modello che non tengono conto delle variazioni di precisione, compresi gli approcci a precisione mista. Gli esperimenti dimostrano che questi metodi tradizionali producono errori sostanziali, con errore percentuale medio assoluto che raggiunge fino al 147,85%. Per risolvere questo problema, i ricercatori hanno sviluppato un predittore consapevole della precisione che garantisce una robusta accuratezza in diverse impostazioni di precisione. Questo nuovo strumento raggiunge un tasso di errore molto più basso del 9,8% MAPE. La previsione accurata del tempo di addestramento è essenziale per un'allocazione efficiente delle risorse, la stima dei costi e la pianificazione dei lavori negli ambienti di deep learning distribuito. La ricerca è stata pubblicata su arXiv, una piattaforma per articoli scientifici in campi come l'informatica e il machine learning.
Fatti principali
- Il tempo di addestramento nel deep learning distribuito varia di ~2,4x in base alle impostazioni di precisione in virgola mobile
- I metodi di previsione esistenti non tengono conto delle variazioni di precisione, compresa la precisione mista
- I metodi tradizionali producono errori di previsione fino al 147,85% MAPE
- I ricercatori hanno sviluppato un predittore del tempo di addestramento distribuito consapevole della precisione
- Il nuovo predittore raggiunge il 9,8% MAPE in diverse impostazioni di precisione
- La previsione accurata è cruciale per l'allocazione delle risorse e la stima dei costi
- La ricerca affronta l'ottimizzazione dell'addestramento nel deep learning distribuito
- L'articolo è stato pubblicato sulla piattaforma arXiv
Entità
Istituzioni
- arXiv