Il Deep RL non supera i baselines calibrati nel controllo adattivo delle risorse
Un nuovo studio di benchmark mette in discussione l'efficacia dell'apprendimento per rinforzo profondo (DRL) per il controllo adattivo delle risorse. L'articolo introduce RLScale-Bench, un benchmark riproducibile che valuta sei algoritmi DRL mainstream—PPO, DQN, A2C, SAC, TD3 e DDPG—contro un autoscaler calibrato basato su regole. Su sei pattern di carico di lavoro e cinque seed (240 esecuzioni), il controller basato su regole ha ottenuto il costo più basso su tutti i carichi di lavoro, sebbene sia stato superato dai migliori agenti RL su traffico bursty e flash. Il benchmark è istanziato su Kubernetes Horizontal Pod Autoscaling e sonda la generalizzazione dello spostamento di distribuzione. Lo studio rileva che i metodi DRL ad azione discreta hanno prestazioni scadenti e che il baseline calibrato è spesso trascurato nei lavori precedenti. L'articolo è disponibile su arXiv con ID 2605.26418.
Fatti principali
- L'autoscaler calibrato basato su regole supera sei algoritmi DRL in termini di costo su tutti i carichi di lavoro testati.
- RLScale-Bench è un benchmark riproducibile per il DRL nel controllo adattivo delle risorse.
- Algoritmi valutati: PPO, DQN, A2C, SAC, TD3, DDPG.
- Sei pattern di carico di lavoro e cinque seed utilizzati, per un totale di 240 esecuzioni.
- Benchmark istanziato su Kubernetes Horizontal Pod Autoscaling.
- Il controller basato su regole raggiunge il costo più basso su tutti i carichi di lavoro.
- Gli agenti RL hanno prestazioni migliori su traffico bursty e flash.
- Articolo disponibile su arXiv: 2605.26418.
Entità
Istituzioni
- arXiv