ARTFEED — Contemporary Art Intelligence

RL con Gating del Rischio per il Controllo Critico per la Sicurezza in Osservabilità Parziale

other · 2026-05-16

Una nuova tecnica di apprendimento per rinforzo nota come gating del rischio condizionato all'azione affronta la sfida del controllo sensibile al rischio all'interno di processi decisionali markoviani parzialmente osservabili. Questo metodo impiega uno stato proxy compatto a storia finita e sviluppa un predittore per imminenti violazioni della sicurezza. Il rischio previsto funge da penalità durante la fase di apprendimento del valore e da gate decisionale, bilanciando tra valutazioni ensemble ottimistiche e conservative, consentendo una valutazione efficiente delle azioni a basso rischio. Il design mira a ridurre sia i costi computazionali che la sensibilità del modello rispetto alla pianificazione nello spazio delle credenze.

Fatti principali

  • Il metodo si rivolge a processi decisionali markoviani parzialmente osservabili sensibili al rischio.
  • Utilizza uno stato proxy compatto a storia finita.
  • Apprende un predittore condizionato all'azione di violazione della sicurezza a breve termine.
  • Il rischio previsto viene utilizzato come penalità nell'apprendimento del valore.
  • Il rischio previsto viene utilizzato come gate decisionale tra stime ottimistiche e conservative.
  • Mira a ridurre il costo computazionale e la sensibilità del modello.
  • Descritto nell'articolo arXiv 2605.14246.
  • Pubblicato su arXiv.

Entità

Istituzioni

  • arXiv

Fonti