ActQuant: Quantizzazione sub-4-bit per modelli Visione-Linguaggio-Azione

ai-technology · 2026-05-26

ActQuant è un framework di quantizzazione post-addestramento per modelli Visione-Linguaggio-Azione (VLA), che consente la quantizzazione dei pesi a meno di 4 bit per ridurre i requisiti computazionali per la distribuzione edge. Utilizza un approccio a due fasi: un allocatore di bit inter-tensore assegna larghezze di bit per matrice di pesi in base al contributo alla previsione dell'azione, e un ottimizzatore di scala intra-tensore regola le scale per blocco utilizzando la curvatura sensibile all'azione. Il framework include anche OmniModel.cpp, una pipeline di conversione per la distribuzione su dispositivo.

Fatti principali

ActQuant mira alla quantizzazione dei pesi sub-4-bit per modelli VLA.
Utilizza un framework PTQ a due fasi: allocatore di bit inter-tensore e ottimizzatore di scala intra-tensore.
L'allocatore inter-tensore assegna larghezze di bit in base al contributo alla previsione dell'azione.
L'ottimizzatore intra-tensore utilizza la curvatura sensibile all'azione per concentrare la gamma dinamica sui pesi influenti.
OmniModel.cpp è una pipeline di conversione agentica per la distribuzione su dispositivo.
I metodi PTQ esistenti soffrono di grave degrado delle prestazioni nel regime sub-4-bit.
I modelli VLA mostrano una notevole generazione di azioni per l'intelligenza incarnata.
L'elevato carico computazionale rende impraticabile la distribuzione di VLA su piattaforme edge.

Entità

—

Fonti

arXiv cs.AI — 2026-05-26