Nvidia vs. Apple Silicon: Benchmark dell'Inferenza di LLM con oltre 70B Parametri su Hardware Consumer
Un nuovo articolo su arXiv (2605.00519) confronta sistematicamente l'inferenza di LLM consumer per modelli con oltre 70 miliardi di parametri su Nvidia Blackwell e Apple Silicon. Su Nvidia, la quantizzazione NVFP4 di TensorRT-LLM raggiunge 151 token/s contro 92 token/s per BF16, un aumento del throughput di 1,6x, ma introduce una 'Dicotomia del Backend' che scambia la latenza di avvio con la velocità. Un 'Muro di VRAM' impone una quantizzazione aggressiva sulle GPU discrete. Lo studio evidenzia i compromessi specifici dell'ecosistema per implementare LLM di classe datacenter localmente.
Fatti principali
- L'articolo arXiv:2605.00519 analizza l'inferenza di LLM su Nvidia Blackwell e Apple Silicon.
- La quantizzazione NVFP4 raggiunge 151 token/s contro 92 token/s per BF16 su Nvidia Blackwell.
- Lo stack TensorRT-LLM presenta una 'Dicotomia del Backend' tra latenza di avvio e velocità di generazione.
- I modelli con oltre 70 miliardi di parametri affrontano un 'Muro di VRAM' sulle GPU consumer.
- L'ecosistema Apple Silicon è caratterizzato per i compromessi intra-architettura.
- Lo studio è empirico e sistematico, focalizzato su hardware consumer.
- L'architettura Nvidia Blackwell utilizza il formato di quantizzazione NVFP4.
- L'articolo confronta prestazioni, efficienza e barriere dell'ecosistema.
Entità
Istituzioni
- Nvidia
- Apple
- TensorRT-LLM