OISMA: Moltiplicazione Stocastica In-Memory per Carichi di Lavoro di Matrici nell'IA
Una nuova architettura di calcolo in-memory chiamata OISMA (On-the-fly In-memory Stochastic Multiplication Architecture) è stata proposta per affrontare il collo di bottiglia computazionale dei carichi di lavoro di moltiplicazione di matrici nei modelli di intelligenza artificiale. OISMA sfrutta il sistema di calcolo quasi-stocastico a piramide piegata (BP) per eseguire moltiplicazioni stocastiche in situ durante le normali operazioni di lettura della memoria, con un costo aggiuntivo trascurabile. L'architettura mira a superare le limitazioni sia delle architetture IMC digitali/binarie che di quelle analogiche, che soffrono di degrado delle prestazioni e dell'efficienza energetica. Una periferia di accumulo accumula i flussi di bit di moltiplicazione in uscita per ottenere operazioni matriciali. Il lavoro è dettagliato in arXiv:2508.08822v2.
Fatti principali
- OISMA è un'architettura IMC energeticamente efficiente.
- Utilizza il sistema di calcolo quasi-stocastico a piramide piegata (BP).
- Converte le normali operazioni di lettura della memoria in moltiplicazioni stocastiche in situ.
- La periferia di accumulo accumula i flussi di bit di moltiplicazione in uscita.
- Si rivolge a carichi di lavoro di moltiplicazione di matrici nei modelli di IA.
- Mira a evitare il collo di bottiglia di von Neumann.
- Affronta le limitazioni delle architetture IMC digitali/binarie e analogiche.
- L'articolo è su arXiv con ID 2508.08822v2.
Entità
Istituzioni
- arXiv