EAGLE3 Decodifica Speculativa Potenzia il Commerce Agent di PayPal
Uno studio recente analizza l'uso della decodifica speculativa con EAGLE3 come tecnica di ottimizzazione durante l'inferenza per il Commerce Agent di PayPal, che utilizza un modello fine-tuned llama3.1-nemotron-nano-8B-v1. Questa ricerca si basa su precedenti risultati di NEMO-4-PAYPAL, confrontando EAGLE3 con NVIDIA NIM utilizzando vLLM sullo stesso hardware 2xH100 in 40 diverse configurazioni. Risultati notevoli indicano che con gamma=3 si ha un aumento del 22-49% del throughput e una riduzione del 18-33% della latenza senza costi hardware aggiuntivi; i tassi di accettazione si aggirano intorno al 35,5% per gamma=3; gamma=5 mostra rendimenti decrescenti (circa 25% di accettazione); le valutazioni LLM-as-Judge confermano la qualità dell'output; e la decodifica speculativa su una H100 ha prestazioni comparabili o migliori di NIM su due H100.
Fatti principali
- Valuta la decodifica speculativa con EAGLE3 per il Commerce Agent di PayPal
- Modello: fine-tuned llama3.1-nemotron-nano-8B-v1
- Confrontato con NVIDIA NIM su hardware 2xH100
- Testate 40 configurazioni: gamma=3, gamma=5, concorrenza 1-32, temperature 0 e 0.5
- gamma=3: miglioramento del throughput del 22-49%, riduzione della latenza del 18-33%
- Tasso di accettazione per gamma=3: ~35,5%
- Tasso di accettazione per gamma=5: ~25%
- Una singola H100 con decodifica speculativa eguaglia o supera due H100 con NIM
Entità
Istituzioni
- PayPal
- NVIDIA