Il Campionamento Comportamentale dei Compiti Migliora l'RL Offline Zero-Shot
Uno studio recente pubblicato su arXiv (2604.25496) introduce una tecnica volta a migliorare l'apprendimento per rinforzo offline zero-shot derivando direttamente i vettori dei compiti dai dataset offline invece di utilizzare il campionamento casuale. Tradizionalmente, le politiche condizionate dai compiti vengono addestrate con vettori di compiti scelti casualmente che stabiliscono funzioni di ricompensa lineari attraverso rappresentazioni di stato apprese. I ricercatori sostengono che questo metodo porta a una generalizzazione meno efficace. La loro procedura semplice per estrarre le funzioni di ricompensa può essere incorporata negli algoritmi attuali, producendo un miglioramento medio dell'8% nelle prestazioni zero-shot in vari ambienti benchmark e baseline.
Fatti principali
- Articolo arXiv 2604.25496
- Migliora l'RL offline zero-shot
- Propone il campionamento comportamentale dei compiti
- Estrae vettori dei compiti dal dataset offline
- Si integra negli algoritmi esistenti
- Migliora le prestazioni zero-shot in media dell'8%
- Testato in molteplici ambienti benchmark
- Affronta la limitazione del campionamento casuale dei vettori dei compiti
Entità
Istituzioni
- arXiv