L'architettura di inferenza AI composta di Salesforce riduce la latenza del 50%
Salesforce ha pubblicato uno studio su un'implementazione in produzione che delinea un framework di inferenza modulare e indipendente dalla piattaforma per sistemi AI composti. Questa architettura, progettata per potenziare Agentforce (agenti AI autonomi) e ApexGuru (analisi del codice basata su AI), presenta esecuzione serverless, autoscaling dinamico e pipeline MLOps. I risultati in produzione indicano una riduzione di oltre il 50% nella latenza di coda (P95), miglioramenti del throughput fino a 3,9 volte e risparmi sui costi dal 30% al 40% rispetto a precedenti implementazioni statiche. Lo studio affronta la sfida di gestire efficacemente richieste simultanee e diversificate di modelli in applicazioni AI aziendali che utilizzano più modelli, recuperatori e strumenti.
Fatti principali
- Salesforce ha sviluppato un'architettura di inferenza modulare e indipendente dalla piattaforma per sistemi AI composti.
- Il sistema supporta Agentforce (agenti AI autonomi) e ApexGuru (analisi del codice basata su AI).
- Integra esecuzione serverless, autoscaling dinamico e pipeline MLOps.
- I risultati in produzione mostrano una riduzione di oltre il 50% nella latenza di coda (P95).
- Il throughput è migliorato fino a 3,9 volte.
- Risparmi sui costi del 30-40% rispetto a precedenti implementazioni statiche.
- Lo studio è pubblicato su arXiv con ID 2604.25724.
- I sistemi AI composti combinano più modelli, recuperatori e strumenti per compiti complessi.
Entità
Istituzioni
- Salesforce
- arXiv