PPO Neuro-Simbolico Migliora l'Efficienza del Deep Reinforcement Learning

ai-technology · 2026-04-30

Un team di ricercatori ha introdotto un potenziamento neuro-simbolico della Proximal Policy Optimization (PPO) volto a trasferire specifiche parziali di policy logiche da scenari più semplici per facilitare l'apprendimento in ambienti più complessi. Presentano due nuovi approcci: H-PPO-Product, che modifica la distribuzione delle azioni durante il campionamento, e H-PPO-SymLoss, che incorpora una componente di regolarizzazione simbolica nella funzione di perdita PPO. Testati su benchmark come OfficeWorld, WaterWorld e DoorKey, questi metodi hanno dimostrato un apprendimento significativamente più rapido e ritorni migliori alla convergenza rispetto sia a PPO che a una baseline Reward Machine, anche quando la conoscenza simbolica era incompleta. Questa ricerca affronta i problemi di inefficienza dei dati nel DRL, in particolare in relazione a ricompense sparse e orizzonti di pianificazione estesi.

Fatti principali

Propone estensione neuro-simbolica della Proximal Policy Optimization (PPO)
Trasferisce specifiche parziali di policy logiche da istanze più facili a più difficili
Due integrazioni: H-PPO-Product (influenza la distribuzione delle azioni) e H-PPO-SymLoss (regolarizzazione simbolica)
Valutato su benchmark OfficeWorld, WaterWorld e DoorKey
Mostra apprendimento più veloce e ritorno più alto alla convergenza rispetto a PPO e baseline Reward Machine
Funziona con conoscenza simbolica imperfetta
Affronta l'inefficienza dei dati e i domini a ricompensa sparsa nel DRL

Entità

—

Fonti

arXiv cs.AI — 2026-04-29