QuIDE: Nuova Metrica Quantifica i Compromessi di Efficienza delle Reti Neurali
Una nuova metrica chiamata QuIDE è stata sviluppata dai ricercatori per valutare le reti neurali quantizzate. Questa metrica utilizza l'Indice di Intelligenza I = (C x P)/log_2(T+1), che integra compressione, accuratezza e latenza in un unico punteggio completo. I test su sei diversi scenari, tra cui SimpleCNN su MNIST e CIFAR, ResNet-18 su ImageNet-1K e Llama-3-8B, mostrano un Pareto Knee specifico per ogni compito. Per MNIST e grandi LLM, la quantizzazione a 4 bit risulta la più efficace, mentre quella a 8 bit è preferibile per compiti CNN complessi come ResNet-18 su ImageNet, dove la quantizzazione post-addestramento a 4 bit porta a una significativa perdita di accuratezza. Una versione con gate di accuratezza, I', identifica efficacemente le configurazioni inadatte che l'I originale potrebbe approvare. QuIDE offre anche un quadro di valutazione riproducibile e una funzione di fitness pratica per l'ottimizzazione a precisione mista.
Fatti principali
- 1. QuIDE è una nuova metrica per l'efficienza delle reti neurali quantizzate.
- 2. Indice di Intelligenza I = (C x P)/log_2(T+1).
- 3. Gli esperimenti includono SimpleCNN (MNIST, CIFAR), ResNet-18 (ImageNet-1K) e Llama-3-8B.
- 4. La quantizzazione a 4 bit è ottimale per MNIST e grandi LLM.
- 5. La quantizzazione a 8 bit è ottimale per compiti CNN complessi come ResNet-18 su ImageNet.
- 6. La PTQ a 4 bit causa un collasso catastrofico dell'accuratezza su ResNet-18/ImageNet.
- 7. La variante con gate di accuratezza I' segnala le configurazioni non valide.
- 8. QuIDE offre un protocollo di valutazione riproducibile e una funzione di fitness per la ricerca a precisione mista.
Entità
Istituzioni
- arXiv