Benchmarking dell'RL Guidato da Esperti Rivela Tre Modalità di Fallimento
Uno studio recente standardizza la valutazione delle tecniche di reinforcement learning guidato da esperti al momento della query, utilizzando un framework SAC comune insieme a ottimizzazione degli iperparametri (HPO) e protocolli di valutazione unificati. Questa ricerca impiega 100/50 semi per ogni combinazione ambiente-metodo e conduce una sweep di degradazione che affronta il sotto-addestramento dell'esperto, il bias di azione e il rumore di osservazione. I risultati rivelano tre modalità di fallimento trascurate nelle valutazioni individuali degli articoli: un punto cieco del critico con argmax-plus-bootstrap che causa prestazioni peggiori di IBRL rispetto a SAC senza esperto quando gli esperti sono vicini al tetto del no-expert-RL; saturazione residua con esperti subottimali; e avvelenamento del buffer di warm-start che mina i metodi di handoff in fase di addestramento in scenari di implementazione reali. L'articolo completo è disponibile su arXiv.
Fatti principali
- arXiv:2605.09109v1
- Pubblicato su arXiv
- Confronta metodi di RL guidato da esperti su backbone SAC condiviso
- Utilizza 100/50 semi per (ambiente, metodo)
- Sweep di degradazione su sotto-addestramento dell'esperto, bias di azione, rumore di osservazione
- Identifica tre modalità di fallimento: punto cieco del critico, saturazione residua, avvelenamento del buffer
- IBRL ha prestazioni peggiori di SAC senza esperto su esperti vicini al tetto
- I metodi di handoff in fase di addestramento collassano in condizioni di implementazione
Entità
Istituzioni
- arXiv