Ottimizzazione di Latenza, Affidabilità e Costo nei Flussi di Lavoro Agenti Abilitati da LLM
Uno studio recente pubblicato su arXiv indaga l'equilibrio tra latenza, affidabilità e costo nei sistemi di IA composti da più agenti interagenti, inclusi quelli guidati da modelli linguistici di grandi dimensioni (LLM) e unità computazionali tradizionali. La ricerca presenta modelli di prestazione sia per agenti LLM che non LLM, illustrando come lo sforzo computazionale sia correlato alla qualità dell'output. Utilizza una funzione di affidabilità esponenziale parametrica per gli agenti LLM per tenere conto dei token di ragionamento e di output. Gli autori esplorano la creazione di flussi di lavoro sequenziali rispettando i vincoli di latenza e costo, sviluppando una strategia di allocazione dei token a riempimento d'acqua e definendo l'affidabilità ottimale del flusso di lavoro attraverso i prezzi ombra. Questa ricerca mira a migliorare l'affidabilità dei flussi di lavoro agente integrati con LLM.
Fatti principali
- L'articolo analizza i compromessi tra latenza, affidabilità e costo nei flussi di lavoro agente abilitati da LLM.
- Introduce modelli di prestazione per agenti LLM e non LLM.
- Utilizza una funzione di affidabilità esponenziale parametrica per gli agenti LLM.
- Deriva una politica di allocazione dei token a riempimento d'acqua.
- Caratterizza l'affidabilità ottimale del flusso di lavoro tramite prezzi ombra.
- Pubblicato su arXiv.
- Si concentra su flussi di lavoro sequenziali sotto vincoli.
- Mira a migliorare l'affidabilità dei sistemi di IA multi-agente.
Entità
Istituzioni
- arXiv