L'architettura di inferenza AI composta di Salesforce riduce la latenza del 50%

ai-technology · 2026-04-30

Salesforce ha pubblicato uno studio su un'implementazione in produzione che delinea un framework di inferenza modulare e indipendente dalla piattaforma per sistemi AI composti. Questa architettura, progettata per potenziare Agentforce (agenti AI autonomi) e ApexGuru (analisi del codice basata su AI), presenta esecuzione serverless, autoscaling dinamico e pipeline MLOps. I risultati in produzione indicano una riduzione di oltre il 50% nella latenza di coda (P95), miglioramenti del throughput fino a 3,9 volte e risparmi sui costi dal 30% al 40% rispetto a precedenti implementazioni statiche. Lo studio affronta la sfida di gestire efficacemente richieste simultanee e diversificate di modelli in applicazioni AI aziendali che utilizzano più modelli, recuperatori e strumenti.

Fatti principali

Salesforce ha sviluppato un'architettura di inferenza modulare e indipendente dalla piattaforma per sistemi AI composti.
Il sistema supporta Agentforce (agenti AI autonomi) e ApexGuru (analisi del codice basata su AI).
Integra esecuzione serverless, autoscaling dinamico e pipeline MLOps.
I risultati in produzione mostrano una riduzione di oltre il 50% nella latenza di coda (P95).
Il throughput è migliorato fino a 3,9 volte.
Risparmi sui costi del 30-40% rispetto a precedenti implementazioni statiche.
Lo studio è pubblicato su arXiv con ID 2604.25724.
I sistemi AI composti combinano più modelli, recuperatori e strumenti per compiti complessi.

L'architettura di inferenza AI composta di Salesforce riduce la latenza del 50%

Fatti principali

Entità

Istituzioni

Fonti