AMMA: Architettura Memory-Centric per Attenzione a Contesto Lungo a Bassa Latenza per LLM
AMMA ha svelato un nuovo design incentrato sulla memoria che utilizza un approccio multi-chiplet per ridurre la latenza nell'attenzione a contesto lungo per i modelli linguistici di grandi dimensioni (LLM). Invece di fare affidamento sulle GPU, che faticano con le pesanti richieste di memoria durante la fase di decodifica, AMMA integra cubi HBM-PNM per migliorare le prestazioni. Questo cambiamento raddoppia efficacemente la larghezza di banda della memoria, cruciale per i compiti che dipendono dalla memoria. Poiché le lunghezze del contesto raggiungono un milione di token in applicazioni di ragionamento e agenti, la latenza dell'attenzione è diventata una sfida importante per gli utenti. La nuova architettura mira a migliorare l'efficienza nei framework di servizio LLM, inclusa la disaggregazione attenzione-FFN e la piattaforma Rubin GPU-LPU di NVIDIA.
Fatti principali
- AMMA è un'architettura multi-chiplet e memory-centric per attenzione a contesto lungo a bassa latenza.
- Gli attuali sistemi di servizio LLM pongono la GPU al centro, il che è inadeguato per l'attenzione in fase di decodifica vincolata dalla memoria.
- AMMA sostituisce i die di calcolo GPU con cubi HBM-PNM.
- AMMA raddoppia approssimativamente la larghezza di banda della memoria disponibile.
- Le lunghezze del contesto stanno raggiungendo un milione di token in carichi di lavoro di ragionamento e agenti.
- La latenza dell'attenzione è il principale collo di bottiglia per l'utente nei contesti lunghi.
- L'architettura è mirata alla disaggregazione attenzione-FFN a livello di produzione e alla piattaforma Rubin GPU-LPU di NVIDIA.
- L'articolo proviene da arXiv (2604.26103).
Entità
Istituzioni
- arXiv
- NVIDIA