ARTFEED — Contemporary Art Intelligence

SplitQ: Separazione dei Canali per la Quantizzazione a Bassa Bit di VLM

ai-technology · 2026-05-20

I ricercatori propongono SplitQ, un framework di quantizzazione post-addestramento per modelli linguistico-visivi su larga scala (VLM) che affronta le distribuzioni di attivazione eterogenee tra le modalità testuale e visiva. Il metodo introduce un modulo di Disaccoppiamento dei Canali Anomali Specifici per Modalità (MOCD) per isolare i canali anomali salienti, distribuiti in modo disomogeneo tra le modalità. Un'ulteriore Calibrazione Adattiva Cross-Modale (ACC) riduce le restanti discrepanze di distribuzione. Il lavoro mira a un'implementazione efficiente dei VLM su dispositivi con risorse limitate.

Fatti principali

  • 1. L'articolo arXiv 2605.19929 propone SplitQ per la quantizzazione post-addestramento a bassa bit dei VLM
  • 2. Le distribuzioni di attivazione eterogenee tra le modalità testuale e visiva causano un degrado dell'accuratezza
  • 3. I canali anomali sono specifici per modalità e distribuiti in modo disomogeneo
  • 4. Il modulo MOCD isola i canali anomali salienti specifici per modalità
  • 5. Il modulo ACC affronta le discrepanze di distribuzione cross-modali
  • 6. L'obiettivo è l'implementazione efficiente dei VLM su dispositivi con risorse limitate

Entità

Istituzioni

  • arXiv

Fonti