Attenzione Adattiva Smussata di Tchebycheff per l'Ottimizzazione Multi-Obiettivo delle Politiche
Un nuovo framework chiamato Adaptive Smooth Tchebycheff (AST) affronta la sfida di bilanciare obiettivi contrastanti nell'apprendimento per rinforzo multi-obiettivo per la robotica. I metodi di scalarizzazione lineare offrono stabilità ma non possono recuperare soluzioni in regioni non convesse del fronte di Pareto. Le scalarizzazioni non lineari statiche come Tchebycheff possono accedere a queste regioni ma soffrono di varianza del gradiente e instabilità nel deep RL. AST modula dinamicamente la curvatura del paesaggio di ottimizzazione utilizzando un controllore guidato dal conflitto che regola la levigatezza in base all'interferenza del gradiente in tempo reale. Ciò consente una scalarizzazione non convessa precisa quando gli obiettivi sono allineati e torna ad approssimazioni stabili quando i gradienti sono in conflitto. L'approccio è dettagliato in arXiv:2605.12771.
Fatti principali
- arXiv:2605.12771
- Tipo di annuncio: cross
- Proposto il framework Adaptive Smooth Tchebycheff
- Un controllore guidato dal conflitto regola la levigatezza dell'ottimizzazione
- Affronta i compromessi non convessi nel RL multi-obiettivo
- La scalarizzazione lineare non può recuperare soluzioni non convesse del fronte di Pareto
- Il Tchebycheff statico soffre di varianza del gradiente nel deep RL
- Il metodo si annulla verso una scalarizzazione precisa quando gli obiettivi sono allineati
Entità
Istituzioni
- arXiv