Primo acceleratore NPU progettato per LLM basati su diffusione
Un nuovo acceleratore NPU progettato specificamente per modelli linguistici di grandi dimensioni basati su diffusione (dLLM) è stato appena lanciato. A differenza dei tradizionali LLM autoregressivi, i dLLM utilizzano attenzione bidirezionale e aggiornano la loro cache KV a blocchi, insieme al riutilizzo tra passi e una fase di campionamento unica che non dipende da GEMM. Ciò significa che le attuali NPU, ottimizzate per modelli autoregressivi, non possono funzionare efficacemente con i dLLM. L'acceleratore è dotato di un'architettura del set di istruzioni (ISA) e di un compilatore specifici per dLLM, e include hardware specializzato per la fase di campionamento, che è sia pesante in riduzioni che focalizzata sui risultati top-k, adattando la quantizzazione KV a ogni passo. Questo sviluppo soddisfa le esigenze computazionali specifiche dei dLLM, consentendo un'inferenza efficiente su hardware specializzato.
Fatti principali
- Primo acceleratore NPU progettato specificamente per LLM basati su diffusione (dLLM).
- I dLLM utilizzano attenzione bidirezionale, aggiornamento della cache KV a blocchi, riutilizzo tra passi e campionamento non incentrato su GEMM.
- Le NPU esistenti sono incompatibili con i dLLM a causa di diversi pattern di inferenza.
- Il nuovo acceleratore presenta un ISA e un compilatore orientati ai dLLM.
- L'hardware supporta una fase di campionamento pesante in riduzioni e guidata da top-k.
- Affronta i cambiamenti di distribuzione passo-passo nella quantizzazione KV.
- Pubblicato su arXiv con ID 2601.20706.
- Sostituisce la versione precedente (cross-ref).
Entità
Istituzioni
- arXiv