Safe-Support Q-Learning previene l'esplorazione non sicura nell'apprendimento per rinforzo

ai-technology · 2026-04-30

Un nuovo framework di apprendimento per rinforzo chiamato Safe-Support Q-Learning (SSQL) elimina la visita di stati non sicuri durante l'addestramento, affrontando una sfida critica nelle applicazioni del mondo reale dove l'esplorazione pericolosa può causare fallimenti catastrofici. A differenza dei metodi convenzionali di RL sicuro che si limitano a mitigare il rischio attraverso vincoli o penalità, pur consentendo ancora l'esplorazione non sicura, SSQL impone un requisito di sicurezza più rigoroso garantendo che tutte le traiettorie di addestramento rimangano all'interno di un insieme sicuro predefinito. Il framework impiega una politica di comportamento supportata esclusivamente su questo insieme sicuro, consentendo un'esplorazione sufficiente senza richiedere prestazioni quasi ottimali. Adotta un'architettura a due stadi in cui la funzione Q e la politica vengono addestrate separatamente, utilizzando un target Bellman regolarizzato con KL per mantenere la funzione Q vicina alla politica di comportamento. L'approccio è dettagliato in un preprint su arXiv (2604.25379), evidenziando il suo potenziale per domini critici per la sicurezza come la guida autonoma, la robotica e la sanità.

Fatti principali

Safe-Support Q-Learning (SSQL) elimina la visita di stati non sicuri durante l'addestramento RL.
Utilizza una politica di comportamento supportata su un insieme sicuro per garantire che le traiettorie rimangano sicure.
Il framework adotta un processo di addestramento a due stadi per la funzione Q e la politica.
Un target Bellman regolarizzato con KL vincola la funzione Q a rimanere vicina alla politica di comportamento.
Il metodo non richiede prestazioni quasi ottimali per un'esplorazione sicura.
Affronta la sicurezza in applicazioni del mondo reale come la guida autonoma e la robotica.
Il preprint è disponibile su arXiv con ID 2604.25379.
SSQL è più rigoroso dei metodi convenzionali di RL sicuro che si limitano a mitigare il rischio.

Safe-Support Q-Learning previene l'esplorazione non sicura nell'apprendimento per rinforzo

Fatti principali

Entità

Istituzioni

Fonti