ARTFEED — Contemporary Art Intelligence

TAPER: Regolazione del Parallelismo dei Branch nel Serving di LLM

ai-technology · 2026-05-11

Uno studio recente pubblicato su arXiv (2605.06914) presenta TAPER, un controller di ammissione per step progettato per sistemi di serving di LLM che gestisce il parallelismo dei branch. I sistemi attuali o consentono a tutti i branch di decodifica indipendenti di entrare con impazienza, aumentando la latenza dello step di decodifica condiviso e influenzando negativamente i batch co-allocati, o implementano limiti rigidi che perdono potenziali miglioramenti di throughput. TAPER considera i branch aggiuntivi come compiti opportunistici, consentendo la loro ammissione solo quando l'esternalità prevista del branch si allinea con il budget di slack esistente del batch. Questo metodo è efficace poiché separa i processi di calcolo dalle scelte di ammissione a livello di branch.

Fatti principali

  • Articolo su arXiv: 2605.06914
  • Tipo di annuncio: cross
  • TAPER è un controller di ammissione per step
  • Affronta l'esternalità dei branch nel serving di LLM
  • L'ammissione impaziente aumenta la latenza dello step di decodifica condiviso
  • Limiti fissi sacrificano il throughput
  • La larghezza sicura dipende dalla composizione del batch, dalle lunghezze del contesto e dallo slack accumulato
  • La schedulazione a livello di branch disaccoppia il calcolo dall'ammissione

Entità

Istituzioni

  • arXiv

Fonti