ARTFEED — Contemporary Art Intelligence

DERL: Apprendimento per Rinforzo Evolutivo Differenziabile per l'Ottimizzazione della Ricompensa

ai-technology · 2026-05-14

Un nuovo framework chiamato Apprendimento per Rinforzo Evolutivo Differenziabile (DERL) affronta la sfida della progettazione del segnale di ricompensa nell'apprendimento per rinforzo. DERL utilizza una struttura a due livelli con un Meta-Ottimizzatore che evolve le funzioni di ricompensa a partire da primitive atomiche, introducendo la differenziabilità tramite gradienti di policy derivati dalle prestazioni di validazione del ciclo interno. Questo contrasta con i precedenti metodi a scatola nera che trattano le funzioni di ricompensa come non differenziabili. L'approccio mira a sfruttare le dinamiche causali tra le modifiche della ricompensa e i risultati delle policy per compiti di ragionamento complessi.

Fatti principali

  • 1. DERL sta per Apprendimento per Rinforzo Evolutivo Differenziabile
  • 2. È un framework a due livelli per la scoperta autonoma di strutture di ricompensa ottimali
  • 3. Il Meta-Ottimizzatore evolve le funzioni di ricompensa attraverso la composizione di primitive atomiche
  • 4. La differenziabilità è introdotta aggiornando il Meta-Ottimizzatore utilizzando gradienti di policy
  • 5. I gradienti sono derivati dalle prestazioni di validazione del ciclo interno
  • 6. I metodi precedenti trattano le funzioni di ricompensa come scatole nere utilizzando la ricerca senza derivate
  • 7. Il framework è mirato a compiti di ragionamento complessi nell'apprendimento per rinforzo
  • 8. L'articolo è disponibile su arXiv con ID 2512.13399

Entità

Istituzioni

  • arXiv

Fonti