CommFuse: Nuova tecnica per eliminare la latenza di coda nell'addestramento distribuito di LLM
Un articolo di ricerca su arXiv (2604.24013) introduce CommFuse, una nuova tecnica di sovrapposizione comunicazione-calcolo progettata per eliminare la latenza di coda nell'addestramento distribuito di grandi modelli linguistici. Con la crescita delle dimensioni degli LLM, i carichi di lavoro computazionali vengono suddivisi tra acceleratori come GPU, TPU e NPU, ma le strategie di parallelizzazione causano un sostanziale overhead di comunicazione dei dati che ostacola l'efficienza. Le soluzioni esistenti basate sul partizionamento dei dati soffrono di latenza di coda. CommFuse sostituisce le operazioni collettive convenzionali di reduce-scatter e all-gather con pattern di comunicazione decomposti e fusi per mitigare il collo di bottiglia della comunicazione nel parallelismo tensoriale e nel parallelismo dei dati sia per l'addestramento che per l'inferenza. L'articolo è stato annunciato come una sottomissione cross-type su arXiv.
Fatti principali
- L'articolo arXiv 2604.24013 introduce CommFuse
- CommFuse è una tecnica di sovrapposizione comunicazione-calcolo
- Mira a eliminare la latenza di coda nell'addestramento distribuito di LLM
- Affronta l'overhead di comunicazione nel parallelismo tensoriale e dei dati
- Sostituisce reduce-scatter e all-gather con operazioni decomposte e fuse
- Si rivolge ad acceleratori come GPU, TPU e NPU
- Pubblicato come annuncio cross-type su arXiv
Entità
Istituzioni
- arXiv