DERL: Apprendimento per Rinforzo Evolutivo Differenziabile per l'Ottimizzazione della Ricompensa

ai-technology · 2026-05-14

Un nuovo framework chiamato Apprendimento per Rinforzo Evolutivo Differenziabile (DERL) affronta la sfida della progettazione del segnale di ricompensa nell'apprendimento per rinforzo. DERL utilizza una struttura a due livelli con un Meta-Ottimizzatore che evolve le funzioni di ricompensa a partire da primitive atomiche, introducendo la differenziabilità tramite gradienti di policy derivati dalle prestazioni di validazione del ciclo interno. Questo contrasta con i precedenti metodi a scatola nera che trattano le funzioni di ricompensa come non differenziabili. L'approccio mira a sfruttare le dinamiche causali tra le modifiche della ricompensa e i risultati delle policy per compiti di ragionamento complessi.

Fatti principali

1. DERL sta per Apprendimento per Rinforzo Evolutivo Differenziabile
2. È un framework a due livelli per la scoperta autonoma di strutture di ricompensa ottimali
3. Il Meta-Ottimizzatore evolve le funzioni di ricompensa attraverso la composizione di primitive atomiche
4. La differenziabilità è introdotta aggiornando il Meta-Ottimizzatore utilizzando gradienti di policy
5. I gradienti sono derivati dalle prestazioni di validazione del ciclo interno
6. I metodi precedenti trattano le funzioni di ricompensa come scatole nere utilizzando la ricerca senza derivate
7. Il framework è mirato a compiti di ragionamento complessi nell'apprendimento per rinforzo
8. L'articolo è disponibile su arXiv con ID 2512.13399

DERL: Apprendimento per Rinforzo Evolutivo Differenziabile per l'Ottimizzazione della Ricompensa

Fatti principali

Entità

Istituzioni

Fonti