L'operatore di Koopman abilita nuovi algoritmi di apprendimento per rinforzo

other · 2026-05-04

Un nuovo articolo introduce due algoritmi di apprendimento per rinforzo basati sull'operatore di Koopman, un metodo data-driven che solleva sistemi non lineari in coordinate dove le dinamiche diventano approssimativamente lineari. Questo approccio affronta l'intrattabilità delle equazioni di Bellman e Hamilton-Jacobi-Bellman per sistemi ad alta dimensionalità o non lineari. Parametrizzando l'operatore di Koopman con azioni di controllo, gli autori costruiscono un 'tensore di Koopman controllato' per stimare la funzione valore ottimale. Gli algoritmi riformulano la soft value iteration e il soft actor-critic, due metodi RL a massima entropia. L'articolo è pubblicato su arXiv con ID 2403.02290.

Fatti principali

1. L'articolo sviluppa due nuovi algoritmi di apprendimento per rinforzo basati sull'operatore di Koopman.
2. L'operatore di Koopman solleva sistemi non lineari in coordinate con dinamiche approssimativamente lineari.
3. L'approccio affronta l'intrattabilità delle equazioni di Bellman e Hamilton-Jacobi-Bellman per sistemi ad alta dimensionalità o non lineari.
4. Un 'tensore di Koopman controllato' viene costruito parametrizzando l'operatore di Koopman con azioni di controllo.
5. Gli algoritmi riformulano la soft value iteration e il soft actor-critic.
6. L'articolo è su arXiv con ID 2403.02290.

L'operatore di Koopman abilita nuovi algoritmi di apprendimento per rinforzo

Fatti principali

Entità

Istituzioni

Fonti