SplitQ: Separazione dei Canali per la Quantizzazione a Bassa Bit di VLM

ai-technology · 2026-05-20

I ricercatori propongono SplitQ, un framework di quantizzazione post-addestramento per modelli linguistico-visivi su larga scala (VLM) che affronta le distribuzioni di attivazione eterogenee tra le modalità testuale e visiva. Il metodo introduce un modulo di Disaccoppiamento dei Canali Anomali Specifici per Modalità (MOCD) per isolare i canali anomali salienti, distribuiti in modo disomogeneo tra le modalità. Un'ulteriore Calibrazione Adattiva Cross-Modale (ACC) riduce le restanti discrepanze di distribuzione. Il lavoro mira a un'implementazione efficiente dei VLM su dispositivi con risorse limitate.

Fatti principali

1. L'articolo arXiv 2605.19929 propone SplitQ per la quantizzazione post-addestramento a bassa bit dei VLM
2. Le distribuzioni di attivazione eterogenee tra le modalità testuale e visiva causano un degrado dell'accuratezza
3. I canali anomali sono specifici per modalità e distribuiti in modo disomogeneo
4. Il modulo MOCD isola i canali anomali salienti specifici per modalità
5. Il modulo ACC affronta le discrepanze di distribuzione cross-modali
6. L'obiettivo è l'implementazione efficiente dei VLM su dispositivi con risorse limitate

SplitQ: Separazione dei Canali per la Quantizzazione a Bassa Bit di VLM

Fatti principali

Entità

Istituzioni

Fonti