ARTFEED — Contemporary Art Intelligence

PPO Neuro-Simbolico Migliora l'Efficienza del Deep Reinforcement Learning

ai-technology · 2026-04-30

Un team di ricercatori ha introdotto un potenziamento neuro-simbolico della Proximal Policy Optimization (PPO) volto a trasferire specifiche parziali di policy logiche da scenari più semplici per facilitare l'apprendimento in ambienti più complessi. Presentano due nuovi approcci: H-PPO-Product, che modifica la distribuzione delle azioni durante il campionamento, e H-PPO-SymLoss, che incorpora una componente di regolarizzazione simbolica nella funzione di perdita PPO. Testati su benchmark come OfficeWorld, WaterWorld e DoorKey, questi metodi hanno dimostrato un apprendimento significativamente più rapido e ritorni migliori alla convergenza rispetto sia a PPO che a una baseline Reward Machine, anche quando la conoscenza simbolica era incompleta. Questa ricerca affronta i problemi di inefficienza dei dati nel DRL, in particolare in relazione a ricompense sparse e orizzonti di pianificazione estesi.

Fatti principali

  • Propone estensione neuro-simbolica della Proximal Policy Optimization (PPO)
  • Trasferisce specifiche parziali di policy logiche da istanze più facili a più difficili
  • Due integrazioni: H-PPO-Product (influenza la distribuzione delle azioni) e H-PPO-SymLoss (regolarizzazione simbolica)
  • Valutato su benchmark OfficeWorld, WaterWorld e DoorKey
  • Mostra apprendimento più veloce e ritorno più alto alla convergenza rispetto a PPO e baseline Reward Machine
  • Funziona con conoscenza simbolica imperfetta
  • Affronta l'inefficienza dei dati e i domini a ricompensa sparsa nel DRL

Entità

Fonti