TAPER: Regolazione del Parallelismo dei Branch nel Serving di LLM
Uno studio recente pubblicato su arXiv (2605.06914) presenta TAPER, un controller di ammissione per step progettato per sistemi di serving di LLM che gestisce il parallelismo dei branch. I sistemi attuali o consentono a tutti i branch di decodifica indipendenti di entrare con impazienza, aumentando la latenza dello step di decodifica condiviso e influenzando negativamente i batch co-allocati, o implementano limiti rigidi che perdono potenziali miglioramenti di throughput. TAPER considera i branch aggiuntivi come compiti opportunistici, consentendo la loro ammissione solo quando l'esternalità prevista del branch si allinea con il budget di slack esistente del batch. Questo metodo è efficace poiché separa i processi di calcolo dalle scelte di ammissione a livello di branch.
Fatti principali
- Articolo su arXiv: 2605.06914
- Tipo di annuncio: cross
- TAPER è un controller di ammissione per step
- Affronta l'esternalità dei branch nel serving di LLM
- L'ammissione impaziente aumenta la latenza dello step di decodifica condiviso
- Limiti fissi sacrificano il throughput
- La larghezza sicura dipende dalla composizione del batch, dalle lunghezze del contesto e dallo slack accumulato
- La schedulazione a livello di branch disaccoppia il calcolo dall'ammissione
Entità
Istituzioni
- arXiv