NPU non sempre più veloce per l'inferenza LLM mobile: analisi a livello di stage

ai-technology · 2026-05-28

Uno studio recente pubblicato su arXiv (2605.27435) introduce il primo benchmarking multi-livello e stage-aware dell'inferenza LLM mobile su un SoC eterogeneo che combina CPU e NPU. Utilizzando una decomposizione del pipeline controllata basata su OPMASK, i ricercatori sono riusciti a separare gli overhead relativi a comunicazione, quantizzazione e calcolo all'interno del percorso di esecuzione della NPU. I risultati rivelano un inaspettato cambio di prestazioni: le CPU superano le NPU nella fase Prefill, intensiva di calcolo, fino a 1,6x, mentre le NPU ottengono solo un'accelerazione marginale (1,05-1,2x) durante la fase Decode, intensiva di memoria. Inoltre, l'overhead di scheduling e il fallback cross-backend riducono i vantaggi pratici dell'offloading sulla NPU, che comporta anche un aumento del consumo energetico.

Fatti principali

Primo studio di benchmarking stage-aware e multi-livello dell'inferenza LLM mobile su SoC eterogeneo CPU-NPU
Metodologia di decomposizione del pipeline controllata basata su OPMASK introdotta
Le CPU superano le NPU nella fase Prefill fino a 1,6x
Le NPU forniscono solo un'accelerazione di 1,05-1,2x nella fase Decode
L'overhead di scheduling e il fallback cross-backend riducono i benefici dell'offloading sulla NPU
L'aumento dell'offloading sulla NPU porta a un maggiore consumo energetico
Studio pubblicato su arXiv con ID 2605.27435
Nessuno studio precedente ha caratterizzato sistematicamente l'efficacia della NPU a livello di operatore e pipeline

NPU non sempre più veloce per l'inferenza LLM mobile: analisi a livello di stage

Fatti principali

Entità

Istituzioni

Fonti