NPU non sempre più veloce per l'inferenza LLM mobile: analisi a livello di stage
Uno studio recente pubblicato su arXiv (2605.27435) introduce il primo benchmarking multi-livello e stage-aware dell'inferenza LLM mobile su un SoC eterogeneo che combina CPU e NPU. Utilizzando una decomposizione del pipeline controllata basata su OPMASK, i ricercatori sono riusciti a separare gli overhead relativi a comunicazione, quantizzazione e calcolo all'interno del percorso di esecuzione della NPU. I risultati rivelano un inaspettato cambio di prestazioni: le CPU superano le NPU nella fase Prefill, intensiva di calcolo, fino a 1,6x, mentre le NPU ottengono solo un'accelerazione marginale (1,05-1,2x) durante la fase Decode, intensiva di memoria. Inoltre, l'overhead di scheduling e il fallback cross-backend riducono i vantaggi pratici dell'offloading sulla NPU, che comporta anche un aumento del consumo energetico.
Fatti principali
- Primo studio di benchmarking stage-aware e multi-livello dell'inferenza LLM mobile su SoC eterogeneo CPU-NPU
- Metodologia di decomposizione del pipeline controllata basata su OPMASK introdotta
- Le CPU superano le NPU nella fase Prefill fino a 1,6x
- Le NPU forniscono solo un'accelerazione di 1,05-1,2x nella fase Decode
- L'overhead di scheduling e il fallback cross-backend riducono i benefici dell'offloading sulla NPU
- L'aumento dell'offloading sulla NPU porta a un maggiore consumo energetico
- Studio pubblicato su arXiv con ID 2605.27435
- Nessuno studio precedente ha caratterizzato sistematicamente l'efficacia della NPU a livello di operatore e pipeline
Entità
Istituzioni
- arXiv