DERL: Apprendimento per Rinforzo Evolutivo Differenziabile per l'Ottimizzazione della Ricompensa
Un nuovo framework chiamato Apprendimento per Rinforzo Evolutivo Differenziabile (DERL) affronta la sfida della progettazione del segnale di ricompensa nell'apprendimento per rinforzo. DERL utilizza una struttura a due livelli con un Meta-Ottimizzatore che evolve le funzioni di ricompensa a partire da primitive atomiche, introducendo la differenziabilità tramite gradienti di policy derivati dalle prestazioni di validazione del ciclo interno. Questo contrasta con i precedenti metodi a scatola nera che trattano le funzioni di ricompensa come non differenziabili. L'approccio mira a sfruttare le dinamiche causali tra le modifiche della ricompensa e i risultati delle policy per compiti di ragionamento complessi.
Fatti principali
- 1. DERL sta per Apprendimento per Rinforzo Evolutivo Differenziabile
- 2. È un framework a due livelli per la scoperta autonoma di strutture di ricompensa ottimali
- 3. Il Meta-Ottimizzatore evolve le funzioni di ricompensa attraverso la composizione di primitive atomiche
- 4. La differenziabilità è introdotta aggiornando il Meta-Ottimizzatore utilizzando gradienti di policy
- 5. I gradienti sono derivati dalle prestazioni di validazione del ciclo interno
- 6. I metodi precedenti trattano le funzioni di ricompensa come scatole nere utilizzando la ricerca senza derivate
- 7. Il framework è mirato a compiti di ragionamento complessi nell'apprendimento per rinforzo
- 8. L'articolo è disponibile su arXiv con ID 2512.13399
Entità
Istituzioni
- arXiv