ARTFEED — Contemporary Art Intelligence

AMMA: Architettura Memory-Centric per Attenzione a Contesto Lungo a Bassa Latenza per LLM

ai-technology · 2026-04-30

AMMA ha svelato un nuovo design incentrato sulla memoria che utilizza un approccio multi-chiplet per ridurre la latenza nell'attenzione a contesto lungo per i modelli linguistici di grandi dimensioni (LLM). Invece di fare affidamento sulle GPU, che faticano con le pesanti richieste di memoria durante la fase di decodifica, AMMA integra cubi HBM-PNM per migliorare le prestazioni. Questo cambiamento raddoppia efficacemente la larghezza di banda della memoria, cruciale per i compiti che dipendono dalla memoria. Poiché le lunghezze del contesto raggiungono un milione di token in applicazioni di ragionamento e agenti, la latenza dell'attenzione è diventata una sfida importante per gli utenti. La nuova architettura mira a migliorare l'efficienza nei framework di servizio LLM, inclusa la disaggregazione attenzione-FFN e la piattaforma Rubin GPU-LPU di NVIDIA.

Fatti principali

  • AMMA è un'architettura multi-chiplet e memory-centric per attenzione a contesto lungo a bassa latenza.
  • Gli attuali sistemi di servizio LLM pongono la GPU al centro, il che è inadeguato per l'attenzione in fase di decodifica vincolata dalla memoria.
  • AMMA sostituisce i die di calcolo GPU con cubi HBM-PNM.
  • AMMA raddoppia approssimativamente la larghezza di banda della memoria disponibile.
  • Le lunghezze del contesto stanno raggiungendo un milione di token in carichi di lavoro di ragionamento e agenti.
  • La latenza dell'attenzione è il principale collo di bottiglia per l'utente nei contesti lunghi.
  • L'architettura è mirata alla disaggregazione attenzione-FFN a livello di produzione e alla piattaforma Rubin GPU-LPU di NVIDIA.
  • L'articolo proviene da arXiv (2604.26103).

Entità

Istituzioni

  • arXiv
  • NVIDIA

Fonti