La strategia di allocazione della memoria ODMA migliora il servizio LLM sugli acceleratori di classe LPDDR

ai-technology · 2026-04-22

Una nuova tecnica di gestione della memoria chiamata ODMA affronta le inefficienze nel servizio dei Large Language Model sugli acceleratori con larghezza di banda di accesso casuale limitata. Gli approcci tradizionali come la pre-allocazione statica richiedono un provisioning della memoria per il caso peggiore, creando un sovraccarico significativo. I metodi di paging a grana fine dipendono dalla tolleranza della High Bandwidth Memory per l'accesso casuale, rendendoli inadatti per i sistemi LPDDR dove l'accesso non sequenziale riduce drasticamente la larghezza di banda. Le soluzioni precedenti assumevano tipicamente distribuzioni statiche e caratteristiche HBM, non riuscendo a risolvere la frammentazione e i vincoli di larghezza di banda specifici dell'hardware LPDDR. ODMA è specificamente progettato per acceleratori con vincoli di accesso casuale come la serie Cambricon MLU. La strategia avanza la previsione della lunghezza di generazione affrontando due limitazioni chiave nei carichi di lavoro di produzione: la deriva della distribuzione e altre sfide non specificate. Questa ricerca affronta colli di bottiglia critici delle prestazioni nell'infrastruttura AI.

Fatti principali

ODMA è una strategia di allocazione della memoria on-demand per il servizio LLM
Progettata per acceleratori con scarsa larghezza di banda di accesso casuale come i sistemi LPDDR
Affronta le limitazioni della pre-allocazione statica e del paging a grana fine
Mira agli acceleratori con vincoli di accesso casuale inclusa la serie Cambricon MLU
Avanza la previsione della lunghezza di generazione nei carichi di lavoro di produzione
Risolve i vincoli di frammentazione e larghezza di banda nell'hardware LPDDR
I metodi precedenti assumevano distribuzioni statiche e caratteristiche HBM
Ricerca pubblicata su arXiv con identificatore 2512.09427v5

La strategia di allocazione della memoria ODMA migliora il servizio LLM sugli acceleratori di classe LPDDR

Fatti principali

Entità

Istituzioni

Fonti