ARTFEED — Contemporary Art Intelligence

Benchmarking dell'RL Guidato da Esperti Rivela Tre Modalità di Fallimento

other · 2026-05-12

Uno studio recente standardizza la valutazione delle tecniche di reinforcement learning guidato da esperti al momento della query, utilizzando un framework SAC comune insieme a ottimizzazione degli iperparametri (HPO) e protocolli di valutazione unificati. Questa ricerca impiega 100/50 semi per ogni combinazione ambiente-metodo e conduce una sweep di degradazione che affronta il sotto-addestramento dell'esperto, il bias di azione e il rumore di osservazione. I risultati rivelano tre modalità di fallimento trascurate nelle valutazioni individuali degli articoli: un punto cieco del critico con argmax-plus-bootstrap che causa prestazioni peggiori di IBRL rispetto a SAC senza esperto quando gli esperti sono vicini al tetto del no-expert-RL; saturazione residua con esperti subottimali; e avvelenamento del buffer di warm-start che mina i metodi di handoff in fase di addestramento in scenari di implementazione reali. L'articolo completo è disponibile su arXiv.

Fatti principali

  • arXiv:2605.09109v1
  • Pubblicato su arXiv
  • Confronta metodi di RL guidato da esperti su backbone SAC condiviso
  • Utilizza 100/50 semi per (ambiente, metodo)
  • Sweep di degradazione su sotto-addestramento dell'esperto, bias di azione, rumore di osservazione
  • Identifica tre modalità di fallimento: punto cieco del critico, saturazione residua, avvelenamento del buffer
  • IBRL ha prestazioni peggiori di SAC senza esperto su esperti vicini al tetto
  • I metodi di handoff in fase di addestramento collassano in condizioni di implementazione

Entità

Istituzioni

  • arXiv

Fonti