ARTFEED — Contemporary Art Intelligence

veScale-FSDP: FSDP flessibile e ad alte prestazioni su larga scala

ai-technology · 2026-04-24

Il sistema veScale-FSDP di nuova concezione affronta le carenze degli attuali metodi Fully Sharded Data Parallel (FSDP) utilizzati nell'addestramento di modelli su larga scala. I framework FSDP esistenti si basano su formati di sharding rigidi, elemento per elemento o per righe, che sono incompatibili con le computazioni a blocchi. Questa limitazione ostacola l'uso di tecniche di addestramento moderne come la quantizzazione a blocchi e ottimizzatori non element-wise come Shampoo e Muon, portando anche a notevoli overhead di comunicazione e memoria quando si utilizzano decine di migliaia di GPU. veScale-FSDP presenta RaggedShard, un formato di sharding adattabile, abbinato a un algoritmo di pianificazione sensibile alla struttura che facilita comunicazioni FSDP zero-copy e supporta nativamente la quantizzazione a blocchi, con l'obiettivo di migliorare sia le prestazioni che la flessibilità nell'addestramento distribuito su larga scala.

Fatti principali

  • 1. veScale-FSDP è un nuovo sistema FSDP.
  • 2. Affronta le limitazioni dei sistemi FSDP esistenti.
  • 3. I sistemi FSDP esistenti si basano su sharding fisso elemento per elemento o per righe.
  • 4. Lo sharding fisso è in conflitto con le computazioni a blocchi.
  • 5. veScale-FSDP utilizza RaggedShard, un formato di sharding flessibile.
  • 6. Include un algoritmo di pianificazione sensibile alla struttura.
  • 7. Consente comunicazioni FSDP zero-copy.
  • 8. Supporta nativamente la quantizzazione a blocchi.
  • 9. Supporta ottimizzatori non element-wise come Shampoo e Muon.
  • 10. È pensato per l'addestramento su decine di migliaia di GPU.

Entità

Fonti