TAPER: Regolazione del Parallelismo dei Branch nel Serving di LLM

ai-technology · 2026-05-11

Uno studio recente pubblicato su arXiv (2605.06914) presenta TAPER, un controller di ammissione per step progettato per sistemi di serving di LLM che gestisce il parallelismo dei branch. I sistemi attuali o consentono a tutti i branch di decodifica indipendenti di entrare con impazienza, aumentando la latenza dello step di decodifica condiviso e influenzando negativamente i batch co-allocati, o implementano limiti rigidi che perdono potenziali miglioramenti di throughput. TAPER considera i branch aggiuntivi come compiti opportunistici, consentendo la loro ammissione solo quando l'esternalità prevista del branch si allinea con il budget di slack esistente del batch. Questo metodo è efficace poiché separa i processi di calcolo dalle scelte di ammissione a livello di branch.

Fatti principali

Articolo su arXiv: 2605.06914
Tipo di annuncio: cross
TAPER è un controller di ammissione per step
Affronta l'esternalità dei branch nel serving di LLM
L'ammissione impaziente aumenta la latenza dello step di decodifica condiviso
Limiti fissi sacrificano il throughput
La larghezza sicura dipende dalla composizione del batch, dalle lunghezze del contesto e dallo slack accumulato
La schedulazione a livello di branch disaccoppia il calcolo dall'ammissione

TAPER: Regolazione del Parallelismo dei Branch nel Serving di LLM

Fatti principali

Entità

Istituzioni

Fonti