La strategia di allocazione della memoria ODMA migliora il servizio LLM sugli acceleratori di classe LPDDR
Una nuova tecnica di gestione della memoria chiamata ODMA affronta le inefficienze nel servizio dei Large Language Model sugli acceleratori con larghezza di banda di accesso casuale limitata. Gli approcci tradizionali come la pre-allocazione statica richiedono un provisioning della memoria per il caso peggiore, creando un sovraccarico significativo. I metodi di paging a grana fine dipendono dalla tolleranza della High Bandwidth Memory per l'accesso casuale, rendendoli inadatti per i sistemi LPDDR dove l'accesso non sequenziale riduce drasticamente la larghezza di banda. Le soluzioni precedenti assumevano tipicamente distribuzioni statiche e caratteristiche HBM, non riuscendo a risolvere la frammentazione e i vincoli di larghezza di banda specifici dell'hardware LPDDR. ODMA è specificamente progettato per acceleratori con vincoli di accesso casuale come la serie Cambricon MLU. La strategia avanza la previsione della lunghezza di generazione affrontando due limitazioni chiave nei carichi di lavoro di produzione: la deriva della distribuzione e altre sfide non specificate. Questa ricerca affronta colli di bottiglia critici delle prestazioni nell'infrastruttura AI.
Fatti principali
- ODMA è una strategia di allocazione della memoria on-demand per il servizio LLM
- Progettata per acceleratori con scarsa larghezza di banda di accesso casuale come i sistemi LPDDR
- Affronta le limitazioni della pre-allocazione statica e del paging a grana fine
- Mira agli acceleratori con vincoli di accesso casuale inclusa la serie Cambricon MLU
- Avanza la previsione della lunghezza di generazione nei carichi di lavoro di produzione
- Risolve i vincoli di frammentazione e larghezza di banda nell'hardware LPDDR
- I metodi precedenti assumevano distribuzioni statiche e caratteristiche HBM
- Ricerca pubblicata su arXiv con identificatore 2512.09427v5
Entità
Istituzioni
- arXiv
- Cambricon