SAGA: Un Scheduler Distribuito per l'Inferenza di Agenti AI su Cluster GPU

ai-technology · 2026-05-04

Un nuovo articolo su arXiv (2605.00528) introduce SAGA, un scheduler distribuito progettato per ottimizzare l'inferenza di agenti AI su cluster GPU. Gli attuali scheduler GPU trattano ogni chiamata LLM come indipendente, scartando lo stato intermedio e aumentando la latenza di 3-8 volte. SAGA passa a una schedulazione a livello di programma, trattando l'intero flusso di lavoro dell'agente come un'unità schedulabile. Utilizza Grafi di Esecuzione degli Agenti per prevedere il riutilizzo della cache KV, batching con affinità di sessione e work stealing, e Agent Fair Share per l'equità. Il sistema raggiunge entro 1,31x della politica offline ottimale di Bélády.

Fatti principali

Articolo su arXiv: 2605.00528
Titolo: SAGA: Schedulazione Atomica del Flusso di Lavoro per l'Inferenza di Agenti AI su Cluster GPU
Gli attuali scheduler GPU trattano ogni chiamata LLM come indipendente, causando un aumento della latenza di 3-8 volte
SAGA propone una schedulazione a livello di programma per interi flussi di lavoro degli agenti
Utilizza Grafi di Esecuzione degli Agenti per prevedere il riutilizzo della cache KV attraverso i confini delle chiamate agli strumenti
Raggiunge entro 1,31x della politica offline ottimale di Bélády
Implementa batching con affinità di sessione e work stealing
Introduce Agent Fair Share, una metrica di equità basata sul tempo di completamento delle attività

SAGA: Un Scheduler Distribuito per l'Inferenza di Agenti AI su Cluster GPU

Fatti principali

Entità

Istituzioni

Fonti