Il framework ReGuard protegge i controller di rete RL dai guasti peggiori
I ricercatori hanno introdotto ReGuard, un framework progettato per identificare scenari peggiori per i controller di rete che utilizzano l'apprendimento per rinforzo (RL) e per proteggerli durante l'inferenza senza necessità di riaddestramento. Sebbene i controller RL generalmente funzionino bene in compiti come lo streaming a bitrate adattivo e il controllo della congestione, possono subire gravi guasti in circostanze specifiche. ReGuard affronta questo problema inquadrando il processo di scoperta come una sfida di massimizzazione del rammarico a due livelli, garantendo un limite inferiore certificato sul divario di prestazioni nel caso peggiore. Genera regole logiche leggere da traiettorie controfattuali che si attivano solo quando viene riconosciuto uno stato pericoloso, preservando le operazioni standard del controller. Questo metodo evita le difficoltà dell'enumerazione e le difficoltà associate alla verifica formale nei sistemi RL sequenziali a ciclo chiuso.
Fatti principali
- I controller basati su RL raggiungono forti prestazioni medie nei compiti di rete
- Le prestazioni possono degradarsi gravemente in determinate condizioni di rete
- Identificare le condizioni peggiori per enumerazione è intrattabile
- I metodi di verifica formale sono impraticabili per i controller RL sequenziali a ciclo chiuso
- ReGuard scopre scenari peggiori per un dato controller RL
- La scoperta è formulata come un problema di massimizzazione del rammarico a due livelli
- ReGuard produce un limite inferiore certificato sul divario di prestazioni nel caso peggiore
- Le traiettorie scoperte vengono compilate in regole logiche leggere per l'intervento
Entità
—