Il Campionamento Comportamentale dei Compiti Migliora l'RL Offline Zero-Shot

other · 2026-04-30

Uno studio recente pubblicato su arXiv (2604.25496) introduce una tecnica volta a migliorare l'apprendimento per rinforzo offline zero-shot derivando direttamente i vettori dei compiti dai dataset offline invece di utilizzare il campionamento casuale. Tradizionalmente, le politiche condizionate dai compiti vengono addestrate con vettori di compiti scelti casualmente che stabiliscono funzioni di ricompensa lineari attraverso rappresentazioni di stato apprese. I ricercatori sostengono che questo metodo porta a una generalizzazione meno efficace. La loro procedura semplice per estrarre le funzioni di ricompensa può essere incorporata negli algoritmi attuali, producendo un miglioramento medio dell'8% nelle prestazioni zero-shot in vari ambienti benchmark e baseline.

Fatti principali

Articolo arXiv 2604.25496
Migliora l'RL offline zero-shot
Propone il campionamento comportamentale dei compiti
Estrae vettori dei compiti dal dataset offline
Si integra negli algoritmi esistenti
Migliora le prestazioni zero-shot in media dell'8%
Testato in molteplici ambienti benchmark
Affronta la limitazione del campionamento casuale dei vettori dei compiti

Il Campionamento Comportamentale dei Compiti Migliora l'RL Offline Zero-Shot

Fatti principali

Entità

Istituzioni

Fonti