Nuovo framework PTQ per la quantizzazione W4A4 dei trasformatori di diffusione video Wan2.2-I2V
È stato introdotto un nuovo framework per la quantizzazione post-addestramento (PTQ) mirato alla quantizzazione W4A4 di grandi trasformatori di diffusione video, affrontando problemi relativi a outlier di attivazione e distribuzioni dipendenti dal timestep. Questo approccio integra SVDQuant per la compensazione di outlier a basso rango, GPTQ per la quantizzazione residua dei pesi consapevole della ricostruzione e valuta in modo indipendente i rapporti di clipping per strato per timestep-bin per ciascun esperto. Si concentra sull'architettura Mixture-of-Experts DiT di Wan2.2-I2V, dove le sensibilità alla quantizzazione differiscono tra esperti ad alto e basso rumore. Secondo i risultati del benchmark OpenS2V-Eval, questo metodo raggiunge una riduzione del 59,3% della memoria GPU di picco rispetto alla baseline BF16, con solo una diminuzione dello 0,9% nel punteggio medio VBench. La ricerca è disponibile su arXiv con ID 2605.27003.
Fatti principali
- Il framework proposto combina SVDQuant, GPTQ e la ricerca del rapporto di clipping per timestep-bin.
- Affronta outlier di attivazione e distribuzioni dipendenti dal timestep in Wan2.2-I2V.
- Si rivolge al design Mixture-of-Experts DiT a due esperti con distinte sensibilità alla quantizzazione.
- Raggiunge una riduzione del 59,3% della memoria GPU di picco sul benchmark OpenS2V-Eval.
- Solo una diminuzione dello 0,9% nel punteggio medio VBench rispetto alla baseline BF16.
- Pubblicato su arXiv con ID 2605.27003.
- Il metodo è di quantizzazione post-addestramento (PTQ).
- La quantizzazione W4A4 consente notevoli risparmi di memoria per i trasformatori di diffusione video.
Entità
Istituzioni
- arXiv