Benchmarking dell'RL Guidato da Esperti Rivela Tre Modalità di Fallimento

other · 2026-05-12

Uno studio recente standardizza la valutazione delle tecniche di reinforcement learning guidato da esperti al momento della query, utilizzando un framework SAC comune insieme a ottimizzazione degli iperparametri (HPO) e protocolli di valutazione unificati. Questa ricerca impiega 100/50 semi per ogni combinazione ambiente-metodo e conduce una sweep di degradazione che affronta il sotto-addestramento dell'esperto, il bias di azione e il rumore di osservazione. I risultati rivelano tre modalità di fallimento trascurate nelle valutazioni individuali degli articoli: un punto cieco del critico con argmax-plus-bootstrap che causa prestazioni peggiori di IBRL rispetto a SAC senza esperto quando gli esperti sono vicini al tetto del no-expert-RL; saturazione residua con esperti subottimali; e avvelenamento del buffer di warm-start che mina i metodi di handoff in fase di addestramento in scenari di implementazione reali. L'articolo completo è disponibile su arXiv.

Fatti principali

arXiv:2605.09109v1
Pubblicato su arXiv
Confronta metodi di RL guidato da esperti su backbone SAC condiviso
Utilizza 100/50 semi per (ambiente, metodo)
Sweep di degradazione su sotto-addestramento dell'esperto, bias di azione, rumore di osservazione
Identifica tre modalità di fallimento: punto cieco del critico, saturazione residua, avvelenamento del buffer
IBRL ha prestazioni peggiori di SAC senza esperto su esperti vicini al tetto
I metodi di handoff in fase di addestramento collassano in condizioni di implementazione

Benchmarking dell'RL Guidato da Esperti Rivela Tre Modalità di Fallimento

Fatti principali

Entità

Istituzioni

Fonti