ARTFEED — Contemporary Art Intelligence

AHASD: Architettura Eterogenea Asincrona per Decodifica Speculativa con Adattamento di Bozze su Dispositivi Mobili

ai-technology · 2026-04-30

Uno studio recente presenta AHASD, un'architettura eterogenea asincrona a livello di task per NPU-PIM mobile, volta a migliorare la decodifica speculativa per modelli linguistici di grandi dimensioni (LLM) su piattaforme mobili. In questo processo, un piccolo modello linguistico di bozza (DLM) genera bozze iniziali, che vengono successivamente validate in batch da un modello linguistico target (TLM) più grande. Tuttavia, i sistemi mobili con singola NPU-PIM affrontano problemi di overhead di inattività durante l'esecuzione sincrona e di calcolo inefficiente durante l'esecuzione asincrona, principalmente a causa delle diverse lunghezze delle bozze. AHASD risolve questi problemi facilitando la generazione parallela di bozze sulla PIM mentre la verifica avviene su una singola NPU, disaccoppiando i task DLM e TLM. Impiega il Controllo di Bozza Consapevole di Entropia e Cronologia e il Controllo di Pre-Verifica Consapevole del Tempo per ottimizzare l'esecuzione di algoritmi di bozza adattivi e gestire i tempi di pre-verifica, riducendo le bozze non valide basate su previsioni a bassa confidenza. L'articolo è disponibile su arXiv con ID 2604.25326.

Fatti principali

  • AHASD è un'architettura eterogenea asincrona a livello di task per NPU-PIM mobile per la decodifica speculativa.
  • La decodifica speculativa utilizza un piccolo DLM per generare bozze e un grande TLM per verificarle in batch.
  • La generazione adattiva di bozze su sistemi mobili con singola NPU-PIM soffre di overhead di inattività nell'esecuzione sincrona.
  • L'esecuzione asincrona soffre di calcolo sprecato a causa delle fluttuazioni nella lunghezza delle bozze.
  • AHASD realizza la generazione parallela di bozze sulla PIM e la verifica su una singola NPU tramite disaccoppiamento DLM-TLM a livello di task.
  • Il Controllo di Bozza Consapevole di Entropia e Cronologia gestisce dinamicamente l'esecuzione dell'algoritmo di bozza adattivo.
  • Il Controllo di Pre-Verifica Consapevole del Tempo gestisce i tempi di pre-verifica.
  • L'articolo è pubblicato su arXiv con ID 2604.25326.

Entità

Istituzioni

  • arXiv

Fonti