Rappresentazione Terminale: Un Nuovo Metodo di Astrazione per l'Apprendimento per Rinforzo
I ricercatori introducono la rappresentazione terminale (TR), una nuova astrazione spazio-temporale per l'apprendimento per rinforzo. A differenza della rappresentazione successore (SR) e della rappresentazione predefinita (DR), TR codifica traiettorie pesate per ricompensa come un oggetto a dimensionalità inferiore e può essere utilizzata direttamente per compiti downstream come la scoperta di opzioni, il reward shaping, il transfer learning e l'esplorazione senza calcoli di autovettori. Il lavoro è descritto in arXiv:2605.31289.
Fatti principali
- 1. arXiv:2605.31289 introduce la rappresentazione terminale (TR).
- 2. TR è un'astrazione spazio-temporale per l'apprendimento per rinforzo.
- 3. TR codifica traiettorie pesate per ricompensa in modo simile alla rappresentazione predefinita (DR).
- 4. TR può essere appresa come un oggetto a dimensionalità inferiore.
- 5. TR può essere utilizzata direttamente per la scoperta di opzioni, il reward shaping, il transfer learning e l'esplorazione.
- 6. TR non richiede calcoli di autovettori.
- 7. La rappresentazione successore (SR) codifica gli stati tramite traiettorie future.
- 8. La rappresentazione predefinita (DR) pesa le traiettorie con la ricompensa.
Entità
—