ARTFEED — Contemporary Art Intelligence

L'architettura di inferenza AI composta di Salesforce riduce la latenza del 50%

ai-technology · 2026-04-30

Salesforce ha pubblicato uno studio su un'implementazione in produzione che delinea un framework di inferenza modulare e indipendente dalla piattaforma per sistemi AI composti. Questa architettura, progettata per potenziare Agentforce (agenti AI autonomi) e ApexGuru (analisi del codice basata su AI), presenta esecuzione serverless, autoscaling dinamico e pipeline MLOps. I risultati in produzione indicano una riduzione di oltre il 50% nella latenza di coda (P95), miglioramenti del throughput fino a 3,9 volte e risparmi sui costi dal 30% al 40% rispetto a precedenti implementazioni statiche. Lo studio affronta la sfida di gestire efficacemente richieste simultanee e diversificate di modelli in applicazioni AI aziendali che utilizzano più modelli, recuperatori e strumenti.

Fatti principali

  • Salesforce ha sviluppato un'architettura di inferenza modulare e indipendente dalla piattaforma per sistemi AI composti.
  • Il sistema supporta Agentforce (agenti AI autonomi) e ApexGuru (analisi del codice basata su AI).
  • Integra esecuzione serverless, autoscaling dinamico e pipeline MLOps.
  • I risultati in produzione mostrano una riduzione di oltre il 50% nella latenza di coda (P95).
  • Il throughput è migliorato fino a 3,9 volte.
  • Risparmi sui costi del 30-40% rispetto a precedenti implementazioni statiche.
  • Lo studio è pubblicato su arXiv con ID 2604.25724.
  • I sistemi AI composti combinano più modelli, recuperatori e strumenti per compiti complessi.

Entità

Istituzioni

  • Salesforce
  • arXiv

Fonti