La Generazione Allineata al Target Potenzia l'RL Offline Cross-Dominio
Un nuovo framework chiamato Target-aligned Coverage Expansion (TCE) è stato introdotto dai ricercatori per affrontare le sfide del disallineamento distribuzionale nell'apprendimento per rinforzo offline cross-dominio quando gli ambienti di origine e target non sono allineati. TCE impiega un modello generativo duale basato su score per creare transizioni coerenti con il target, consentendo la scelta tra l'integrazione di transizioni vicine al target o il miglioramento della copertura tramite generazione. I risultati sperimentali indicano che TCE supera i principali baselines in vari contesti cross-dominio.
Fatti principali
- L'RL offline cross-dominio adatta una politica dal dominio di origine a quello target utilizzando dataset pre-raccolti.
- Le dinamiche ambientali possono differire tra dominio di origine e target.
- La sfida principale è ridurre il disallineamento distribuzionale con dati target limitati.
- Il framework TCE utilizza un modello generativo duale basato su score per la generazione allineata al target.
- TCE decide tra l'incorporazione diretta di transizioni vicine al target o l'espansione della copertura.
- TCE supera costantemente i baselines state-of-the-art per l'RL offline cross-dominio.
- Sono stati condotti esperimenti estesi in diversi ambienti cross-dominio.
- L'approccio è guidato da analisi teoriche.
Entità
Istituzioni
- arXiv