ARTFEED — Contemporary Art Intelligence

EAGLE3 Decodifica Speculativa Potenzia il Commerce Agent di PayPal

ai-technology · 2026-04-24

Uno studio recente analizza l'uso della decodifica speculativa con EAGLE3 come tecnica di ottimizzazione durante l'inferenza per il Commerce Agent di PayPal, che utilizza un modello fine-tuned llama3.1-nemotron-nano-8B-v1. Questa ricerca si basa su precedenti risultati di NEMO-4-PAYPAL, confrontando EAGLE3 con NVIDIA NIM utilizzando vLLM sullo stesso hardware 2xH100 in 40 diverse configurazioni. Risultati notevoli indicano che con gamma=3 si ha un aumento del 22-49% del throughput e una riduzione del 18-33% della latenza senza costi hardware aggiuntivi; i tassi di accettazione si aggirano intorno al 35,5% per gamma=3; gamma=5 mostra rendimenti decrescenti (circa 25% di accettazione); le valutazioni LLM-as-Judge confermano la qualità dell'output; e la decodifica speculativa su una H100 ha prestazioni comparabili o migliori di NIM su due H100.

Fatti principali

  • Valuta la decodifica speculativa con EAGLE3 per il Commerce Agent di PayPal
  • Modello: fine-tuned llama3.1-nemotron-nano-8B-v1
  • Confrontato con NVIDIA NIM su hardware 2xH100
  • Testate 40 configurazioni: gamma=3, gamma=5, concorrenza 1-32, temperature 0 e 0.5
  • gamma=3: miglioramento del throughput del 22-49%, riduzione della latenza del 18-33%
  • Tasso di accettazione per gamma=3: ~35,5%
  • Tasso di accettazione per gamma=5: ~25%
  • Una singola H100 con decodifica speculativa eguaglia o supera due H100 con NIM

Entità

Istituzioni

  • PayPal
  • NVIDIA

Fonti