veScale-FSDP: FSDP flessibile e ad alte prestazioni su larga scala

ai-technology · 2026-04-24

Il sistema veScale-FSDP di nuova concezione affronta le carenze degli attuali metodi Fully Sharded Data Parallel (FSDP) utilizzati nell'addestramento di modelli su larga scala. I framework FSDP esistenti si basano su formati di sharding rigidi, elemento per elemento o per righe, che sono incompatibili con le computazioni a blocchi. Questa limitazione ostacola l'uso di tecniche di addestramento moderne come la quantizzazione a blocchi e ottimizzatori non element-wise come Shampoo e Muon, portando anche a notevoli overhead di comunicazione e memoria quando si utilizzano decine di migliaia di GPU. veScale-FSDP presenta RaggedShard, un formato di sharding adattabile, abbinato a un algoritmo di pianificazione sensibile alla struttura che facilita comunicazioni FSDP zero-copy e supporta nativamente la quantizzazione a blocchi, con l'obiettivo di migliorare sia le prestazioni che la flessibilità nell'addestramento distribuito su larga scala.

Fatti principali

1. veScale-FSDP è un nuovo sistema FSDP.
2. Affronta le limitazioni dei sistemi FSDP esistenti.
3. I sistemi FSDP esistenti si basano su sharding fisso elemento per elemento o per righe.
4. Lo sharding fisso è in conflitto con le computazioni a blocchi.
5. veScale-FSDP utilizza RaggedShard, un formato di sharding flessibile.
6. Include un algoritmo di pianificazione sensibile alla struttura.
7. Consente comunicazioni FSDP zero-copy.
8. Supporta nativamente la quantizzazione a blocchi.
9. Supporta ottimizzatori non element-wise come Shampoo e Muon.
10. È pensato per l'addestramento su decine di migliaia di GPU.

Entità

—

Fonti

arXiv cs.AI — 2026-04-23