Agent-X accelera gli agenti AI on-device di 1,61x
Agent-X è un framework esclusivamente software che accelera gli agenti AI basati su LLM su dispositivi edge fino a 1,61x senza perdita di precisione. Ottimizza sia le fasi di prefill che di decode attraverso la riscrittura dei prompt per il caching dei prefissi e la decodifica speculativa senza LLM. Il sistema è progettato per un'integrazione senza soluzione di continuità negli agenti on-device esistenti, affrontando i colli di bottiglia di latenza nelle applicazioni reali. Questa è la prima caratterizzazione sistematica di tali colli di bottiglia.
Fatti principali
- Agent-X raggiunge un'accelerazione end-to-end di 1,61x su carichi di lavoro agentici rappresentativi.
- È un framework esclusivamente software che preserva la precisione.
- Accelera sia le fasi di prefill che di decode.
- Utilizza la riscrittura dei prompt per il caching dei prefissi adattata ai pattern di input specifici degli agenti.
- Impiega la decodifica speculativa senza LLM per una generazione rapida di token.
- Può essere integrato senza soluzione di continuità negli agenti AI on-device esistenti.
- Primo a caratterizzare ed eliminare sistematicamente i colli di bottiglia di latenza negli agenti on-device.
- Si rivolge a dispositivi edge con elevata latenza end-to-end.
Entità
Istituzioni
- arXiv