PPO Neuro-Simbolico Migliora l'Efficienza del Deep Reinforcement Learning
Un team di ricercatori ha introdotto un potenziamento neuro-simbolico della Proximal Policy Optimization (PPO) volto a trasferire specifiche parziali di policy logiche da scenari più semplici per facilitare l'apprendimento in ambienti più complessi. Presentano due nuovi approcci: H-PPO-Product, che modifica la distribuzione delle azioni durante il campionamento, e H-PPO-SymLoss, che incorpora una componente di regolarizzazione simbolica nella funzione di perdita PPO. Testati su benchmark come OfficeWorld, WaterWorld e DoorKey, questi metodi hanno dimostrato un apprendimento significativamente più rapido e ritorni migliori alla convergenza rispetto sia a PPO che a una baseline Reward Machine, anche quando la conoscenza simbolica era incompleta. Questa ricerca affronta i problemi di inefficienza dei dati nel DRL, in particolare in relazione a ricompense sparse e orizzonti di pianificazione estesi.
Fatti principali
- Propone estensione neuro-simbolica della Proximal Policy Optimization (PPO)
- Trasferisce specifiche parziali di policy logiche da istanze più facili a più difficili
- Due integrazioni: H-PPO-Product (influenza la distribuzione delle azioni) e H-PPO-SymLoss (regolarizzazione simbolica)
- Valutato su benchmark OfficeWorld, WaterWorld e DoorKey
- Mostra apprendimento più veloce e ritorno più alto alla convergenza rispetto a PPO e baseline Reward Machine
- Funziona con conoscenza simbolica imperfetta
- Affronta l'inefficienza dei dati e i domini a ricompensa sparsa nel DRL
Entità
—