ActQuant: Quantizzazione sub-4-bit per modelli Visione-Linguaggio-Azione
ActQuant è un framework di quantizzazione post-addestramento per modelli Visione-Linguaggio-Azione (VLA), che consente la quantizzazione dei pesi a meno di 4 bit per ridurre i requisiti computazionali per la distribuzione edge. Utilizza un approccio a due fasi: un allocatore di bit inter-tensore assegna larghezze di bit per matrice di pesi in base al contributo alla previsione dell'azione, e un ottimizzatore di scala intra-tensore regola le scale per blocco utilizzando la curvatura sensibile all'azione. Il framework include anche OmniModel.cpp, una pipeline di conversione per la distribuzione su dispositivo.
Fatti principali
- ActQuant mira alla quantizzazione dei pesi sub-4-bit per modelli VLA.
- Utilizza un framework PTQ a due fasi: allocatore di bit inter-tensore e ottimizzatore di scala intra-tensore.
- L'allocatore inter-tensore assegna larghezze di bit in base al contributo alla previsione dell'azione.
- L'ottimizzatore intra-tensore utilizza la curvatura sensibile all'azione per concentrare la gamma dinamica sui pesi influenti.
- OmniModel.cpp è una pipeline di conversione agentica per la distribuzione su dispositivo.
- I metodi PTQ esistenti soffrono di grave degrado delle prestazioni nel regime sub-4-bit.
- I modelli VLA mostrano una notevole generazione di azioni per l'intelligenza incarnata.
- L'elevato carico computazionale rende impraticabile la distribuzione di VLA su piattaforme edge.
Entità
—