ARTFEED — Contemporary Art Intelligence

ActQuant: Quantizzazione sub-4-bit per modelli Visione-Linguaggio-Azione

ai-technology · 2026-05-26

ActQuant è un framework di quantizzazione post-addestramento per modelli Visione-Linguaggio-Azione (VLA), che consente la quantizzazione dei pesi a meno di 4 bit per ridurre i requisiti computazionali per la distribuzione edge. Utilizza un approccio a due fasi: un allocatore di bit inter-tensore assegna larghezze di bit per matrice di pesi in base al contributo alla previsione dell'azione, e un ottimizzatore di scala intra-tensore regola le scale per blocco utilizzando la curvatura sensibile all'azione. Il framework include anche OmniModel.cpp, una pipeline di conversione per la distribuzione su dispositivo.

Fatti principali

  • ActQuant mira alla quantizzazione dei pesi sub-4-bit per modelli VLA.
  • Utilizza un framework PTQ a due fasi: allocatore di bit inter-tensore e ottimizzatore di scala intra-tensore.
  • L'allocatore inter-tensore assegna larghezze di bit in base al contributo alla previsione dell'azione.
  • L'ottimizzatore intra-tensore utilizza la curvatura sensibile all'azione per concentrare la gamma dinamica sui pesi influenti.
  • OmniModel.cpp è una pipeline di conversione agentica per la distribuzione su dispositivo.
  • I metodi PTQ esistenti soffrono di grave degrado delle prestazioni nel regime sub-4-bit.
  • I modelli VLA mostrano una notevole generazione di azioni per l'intelligenza incarnata.
  • L'elevato carico computazionale rende impraticabile la distribuzione di VLA su piattaforme edge.

Entità

Fonti