ARTFEED — Contemporary Art Intelligence

SAGA: Un Scheduler Distribuito per l'Inferenza di Agenti AI su Cluster GPU

ai-technology · 2026-05-04

Un nuovo articolo su arXiv (2605.00528) introduce SAGA, un scheduler distribuito progettato per ottimizzare l'inferenza di agenti AI su cluster GPU. Gli attuali scheduler GPU trattano ogni chiamata LLM come indipendente, scartando lo stato intermedio e aumentando la latenza di 3-8 volte. SAGA passa a una schedulazione a livello di programma, trattando l'intero flusso di lavoro dell'agente come un'unità schedulabile. Utilizza Grafi di Esecuzione degli Agenti per prevedere il riutilizzo della cache KV, batching con affinità di sessione e work stealing, e Agent Fair Share per l'equità. Il sistema raggiunge entro 1,31x della politica offline ottimale di Bélády.

Fatti principali

  • Articolo su arXiv: 2605.00528
  • Titolo: SAGA: Schedulazione Atomica del Flusso di Lavoro per l'Inferenza di Agenti AI su Cluster GPU
  • Gli attuali scheduler GPU trattano ogni chiamata LLM come indipendente, causando un aumento della latenza di 3-8 volte
  • SAGA propone una schedulazione a livello di programma per interi flussi di lavoro degli agenti
  • Utilizza Grafi di Esecuzione degli Agenti per prevedere il riutilizzo della cache KV attraverso i confini delle chiamate agli strumenti
  • Raggiunge entro 1,31x della politica offline ottimale di Bélády
  • Implementa batching con affinità di sessione e work stealing
  • Introduce Agent Fair Share, una metrica di equità basata sul tempo di completamento delle attività

Entità

Istituzioni

  • arXiv

Fonti