CommFuse: Nuova tecnica per eliminare la latenza di coda nell'addestramento distribuito di LLM

ai-technology · 2026-05-11

Un articolo di ricerca su arXiv (2604.24013) introduce CommFuse, una nuova tecnica di sovrapposizione comunicazione-calcolo progettata per eliminare la latenza di coda nell'addestramento distribuito di grandi modelli linguistici. Con la crescita delle dimensioni degli LLM, i carichi di lavoro computazionali vengono suddivisi tra acceleratori come GPU, TPU e NPU, ma le strategie di parallelizzazione causano un sostanziale overhead di comunicazione dei dati che ostacola l'efficienza. Le soluzioni esistenti basate sul partizionamento dei dati soffrono di latenza di coda. CommFuse sostituisce le operazioni collettive convenzionali di reduce-scatter e all-gather con pattern di comunicazione decomposti e fusi per mitigare il collo di bottiglia della comunicazione nel parallelismo tensoriale e nel parallelismo dei dati sia per l'addestramento che per l'inferenza. L'articolo è stato annunciato come una sottomissione cross-type su arXiv.

Fatti principali

L'articolo arXiv 2604.24013 introduce CommFuse
CommFuse è una tecnica di sovrapposizione comunicazione-calcolo
Mira a eliminare la latenza di coda nell'addestramento distribuito di LLM
Affronta l'overhead di comunicazione nel parallelismo tensoriale e dei dati
Sostituisce reduce-scatter e all-gather con operazioni decomposte e fuse
Si rivolge ad acceleratori come GPU, TPU e NPU
Pubblicato come annuncio cross-type su arXiv

CommFuse: Nuova tecnica per eliminare la latenza di coda nell'addestramento distribuito di LLM

Fatti principali

Entità

Istituzioni

Fonti