SplitQ: Separazione dei Canali per la Quantizzazione a Bassa Bit di VLM
I ricercatori propongono SplitQ, un framework di quantizzazione post-addestramento per modelli linguistico-visivi su larga scala (VLM) che affronta le distribuzioni di attivazione eterogenee tra le modalità testuale e visiva. Il metodo introduce un modulo di Disaccoppiamento dei Canali Anomali Specifici per Modalità (MOCD) per isolare i canali anomali salienti, distribuiti in modo disomogeneo tra le modalità. Un'ulteriore Calibrazione Adattiva Cross-Modale (ACC) riduce le restanti discrepanze di distribuzione. Il lavoro mira a un'implementazione efficiente dei VLM su dispositivi con risorse limitate.
Fatti principali
- 1. L'articolo arXiv 2605.19929 propone SplitQ per la quantizzazione post-addestramento a bassa bit dei VLM
- 2. Le distribuzioni di attivazione eterogenee tra le modalità testuale e visiva causano un degrado dell'accuratezza
- 3. I canali anomali sono specifici per modalità e distribuiti in modo disomogeneo
- 4. Il modulo MOCD isola i canali anomali salienti specifici per modalità
- 5. Il modulo ACC affronta le discrepanze di distribuzione cross-modali
- 6. L'obiettivo è l'implementazione efficiente dei VLM su dispositivi con risorse limitate
Entità
Istituzioni
- arXiv