Il Deep RL non supera i baselines calibrati nel controllo adattivo delle risorse

other · 2026-05-27

Un nuovo studio di benchmark mette in discussione l'efficacia dell'apprendimento per rinforzo profondo (DRL) per il controllo adattivo delle risorse. L'articolo introduce RLScale-Bench, un benchmark riproducibile che valuta sei algoritmi DRL mainstream—PPO, DQN, A2C, SAC, TD3 e DDPG—contro un autoscaler calibrato basato su regole. Su sei pattern di carico di lavoro e cinque seed (240 esecuzioni), il controller basato su regole ha ottenuto il costo più basso su tutti i carichi di lavoro, sebbene sia stato superato dai migliori agenti RL su traffico bursty e flash. Il benchmark è istanziato su Kubernetes Horizontal Pod Autoscaling e sonda la generalizzazione dello spostamento di distribuzione. Lo studio rileva che i metodi DRL ad azione discreta hanno prestazioni scadenti e che il baseline calibrato è spesso trascurato nei lavori precedenti. L'articolo è disponibile su arXiv con ID 2605.26418.

Fatti principali

L'autoscaler calibrato basato su regole supera sei algoritmi DRL in termini di costo su tutti i carichi di lavoro testati.
RLScale-Bench è un benchmark riproducibile per il DRL nel controllo adattivo delle risorse.
Algoritmi valutati: PPO, DQN, A2C, SAC, TD3, DDPG.
Sei pattern di carico di lavoro e cinque seed utilizzati, per un totale di 240 esecuzioni.
Benchmark istanziato su Kubernetes Horizontal Pod Autoscaling.
Il controller basato su regole raggiunge il costo più basso su tutti i carichi di lavoro.
Gli agenti RL hanno prestazioni migliori su traffico bursty e flash.
Articolo disponibile su arXiv: 2605.26418.

Il Deep RL non supera i baselines calibrati nel controllo adattivo delle risorse

Fatti principali

Entità

Istituzioni

Fonti