APQ e MAQEE: Nuovi Metodi di Quantizzazione per Vision Transformer a Uscita Anticipata

ai-technology · 2026-05-11

Un recente preprint su arXiv (2605.07317) presenta la Quantizzazione a Precisione Ammortizzata (APQ) e la Quantizzazione Adattiva Reciproca con Uscita Anticipata (MAQEE) per affrontare le sfide dell'instabilità nei Vision Transformer (ViT) a uscita anticipata a bassa precisione. Le attuali tecniche di quantizzazione si basano su un modello di esecuzione statico a profondità completa, portando a imprecisioni quando le decisioni di uscita sono influenzate dal rumore di quantizzazione. APQ offre un approccio consapevole dell'utilizzo che esamina l'esposizione stocastica a livello di layer a questo rumore, evidenziando i compromessi tra profondità e precisione. Nel frattempo, MAQEE impiega una strategia a due livelli che ottimizza sia le soglie di uscita che le larghezze di bit con una gestione esplicita del rischio, migliorando la stabilità dell'inferenza. Questo metodo raggiunge una frontiera di Pareto più favorevole nel bilanciamento accuratezza-efficienza, riducendo i BOP fino al 95% senza sacrificare l'accuratezza, superando i baselines robusti.

Fatti principali

Il preprint arXiv 2605.07317 introduce APQ e MAQEE
APQ è una formulazione consapevole dell'utilizzo per il rumore di quantizzazione
MAQEE ottimizza congiuntamente le soglie di uscita e le larghezze di bit
Il metodo riduce i BOP fino al 95% mantenendo l'accuratezza
Affronta l'instabilità nei ViT a uscita anticipata a bassa precisione
I metodi di quantizzazione esistenti assumono un'esecuzione statica a profondità completa
MAQEE stabilisce una frontiera di Pareto superiore nel compromesso accuratezza-efficienza

APQ e MAQEE: Nuovi Metodi di Quantizzazione per Vision Transformer a Uscita Anticipata

Fatti principali

Entità

Istituzioni

Fonti