Nuovo framework PTQ per la quantizzazione W4A4 dei trasformatori di diffusione video Wan2.2-I2V

ai-technology · 2026-05-27

È stato introdotto un nuovo framework per la quantizzazione post-addestramento (PTQ) mirato alla quantizzazione W4A4 di grandi trasformatori di diffusione video, affrontando problemi relativi a outlier di attivazione e distribuzioni dipendenti dal timestep. Questo approccio integra SVDQuant per la compensazione di outlier a basso rango, GPTQ per la quantizzazione residua dei pesi consapevole della ricostruzione e valuta in modo indipendente i rapporti di clipping per strato per timestep-bin per ciascun esperto. Si concentra sull'architettura Mixture-of-Experts DiT di Wan2.2-I2V, dove le sensibilità alla quantizzazione differiscono tra esperti ad alto e basso rumore. Secondo i risultati del benchmark OpenS2V-Eval, questo metodo raggiunge una riduzione del 59,3% della memoria GPU di picco rispetto alla baseline BF16, con solo una diminuzione dello 0,9% nel punteggio medio VBench. La ricerca è disponibile su arXiv con ID 2605.27003.

Fatti principali

Il framework proposto combina SVDQuant, GPTQ e la ricerca del rapporto di clipping per timestep-bin.
Affronta outlier di attivazione e distribuzioni dipendenti dal timestep in Wan2.2-I2V.
Si rivolge al design Mixture-of-Experts DiT a due esperti con distinte sensibilità alla quantizzazione.
Raggiunge una riduzione del 59,3% della memoria GPU di picco sul benchmark OpenS2V-Eval.
Solo una diminuzione dello 0,9% nel punteggio medio VBench rispetto alla baseline BF16.
Pubblicato su arXiv con ID 2605.27003.
Il metodo è di quantizzazione post-addestramento (PTQ).
La quantizzazione W4A4 consente notevoli risparmi di memoria per i trasformatori di diffusione video.

Nuovo framework PTQ per la quantizzazione W4A4 dei trasformatori di diffusione video Wan2.2-I2V

Fatti principali

Entità

Istituzioni

Fonti