I ricercatori di Google presentano Ragged Paged Attention per un'inferenza efficiente degli LLM su TPU

ai-technology · 2026-04-20

Un recente articolo tecnico presenta Ragged Paged Attention (RPA), un kernel di attenzione avanzato progettato specificamente per le Tensor Processing Unit (TPU). Questa innovazione, sviluppata da un team di ricercatori, affronta il problema di adattare efficacemente i carichi di lavoro dei Large Language Model (LLM) alle architetture TPU, che stanno guadagnando popolarità per implementazioni economiche. I sistemi di inferenza attuali sono principalmente ottimizzati per GPU, lasciando un vuoto nelle soluzioni di servizio basate su TPU. RPA incorpora tre strategie principali: tiling a grana fine per lo slicing dinamico della memoria ragged, una pipeline software personalizzata che unisce gli aggiornamenti della cache KV con i calcoli di attenzione, e un metodo di compilazione consapevole della distribuzione che produce kernel specializzati. Utilizzando Pallas e Mosaic, questo approccio enfatizza le prestazioni e il costo totale di proprietà in contesti di servizio moderni con pattern di esecuzione dinamici e ragged. L'articolo, arXiv:2604.15464v1, è stato pubblicato come abstract interdisciplinare, sottolineando la transizione verso acceleratori TPU per l'implementazione degli LLM.

Fatti principali

Ragged Paged Attention (RPA) è un nuovo kernel di attenzione per TPU
Affronta la mappatura inefficiente dei carichi di lavoro LLM sulle architetture TPU
I kernel di inferenza LLM esistenti sono prevalentemente centrati sulle GPU
RPA utilizza il tiling a grana fine per lo slicing dinamico sulla memoria ragged
Presenta una pipeline software personalizzata che fonde gli aggiornamenti della cache KV con il calcolo dell'attenzione
Una strategia di compilazione consapevole della distribuzione genera kernel specializzati
Implementato utilizzando Pallas e Mosaic
Priorizza le prestazioni e il costo totale di proprietà per l'implementazione su TPU

I ricercatori di Google presentano Ragged Paged Attention per un'inferenza efficiente degli LLM su TPU

Fatti principali

Entità

Istituzioni

Fonti