L'apprendimento semi-supervisionato potenzia il reward shaping nel RL sparso

ai-technology · 2026-05-18

Un nuovo metodo di apprendimento per rinforzo utilizza l'apprendimento semi-supervisionato e l'aumento dei dati per modellare le ricompense da transizioni a ricompensa zero, superando gli approcci supervisionati in compiti Atari e di manipolazione robotica, raggiungendo fino al doppio dei punteggi massimi in ambienti con ricompense sparse.

Fatti principali

L'approccio proposto utilizza l'apprendimento semi-supervisionato per il reward shaping
Una nuova tecnica di aumento dati a doppia entropia migliora le prestazioni
Supera i metodi basati su supervisione nell'inferenza delle ricompense
Raggiunge fino al doppio dei punteggi massimi in ambienti con ricompense sparse
Testato su giochi Atari e compiti di manipolazione robotica
Affronta la sfida dei segnali di ricompensa sparsi in scenari reali
Apprende rappresentazioni dello spazio delle traiettorie da transizioni a ricompensa zero

Entità

—

Fonti

arXiv cs.AI — 2026-05-18