Primo acceleratore NPU progettato per LLM basati su diffusione

ai-technology · 2026-04-25

Un nuovo acceleratore NPU progettato specificamente per modelli linguistici di grandi dimensioni basati su diffusione (dLLM) è stato appena lanciato. A differenza dei tradizionali LLM autoregressivi, i dLLM utilizzano attenzione bidirezionale e aggiornano la loro cache KV a blocchi, insieme al riutilizzo tra passi e una fase di campionamento unica che non dipende da GEMM. Ciò significa che le attuali NPU, ottimizzate per modelli autoregressivi, non possono funzionare efficacemente con i dLLM. L'acceleratore è dotato di un'architettura del set di istruzioni (ISA) e di un compilatore specifici per dLLM, e include hardware specializzato per la fase di campionamento, che è sia pesante in riduzioni che focalizzata sui risultati top-k, adattando la quantizzazione KV a ogni passo. Questo sviluppo soddisfa le esigenze computazionali specifiche dei dLLM, consentendo un'inferenza efficiente su hardware specializzato.

Fatti principali

Primo acceleratore NPU progettato specificamente per LLM basati su diffusione (dLLM).
I dLLM utilizzano attenzione bidirezionale, aggiornamento della cache KV a blocchi, riutilizzo tra passi e campionamento non incentrato su GEMM.
Le NPU esistenti sono incompatibili con i dLLM a causa di diversi pattern di inferenza.
Il nuovo acceleratore presenta un ISA e un compilatore orientati ai dLLM.
L'hardware supporta una fase di campionamento pesante in riduzioni e guidata da top-k.
Affronta i cambiamenti di distribuzione passo-passo nella quantizzazione KV.
Pubblicato su arXiv con ID 2601.20706.
Sostituisce la versione precedente (cross-ref).

Primo acceleratore NPU progettato per LLM basati su diffusione

Fatti principali

Entità

Istituzioni

Fonti