EXPO: Apprendimento per Rinforzo Stabile con Politiche Espressive

other · 2026-05-01

Un nuovo algoritmo chiamato Expressive Policy Optimization (EXPO) affronta la sfida di addestrare politiche espressive come i modelli di diffusione e flow-matching con apprendimento per rinforzo (RL) online a partire da dataset offline. A differenza delle politiche gaussiane più semplici, le politiche espressive coinvolgono una lunga catena di denoising che ostacola la propagazione stabile del gradiente. EXPO evita l'ottimizzazione diretta sul valore costruendo una politica RL on-the-fly per massimizzare il Q-value, consentendo un RL online efficiente in termini di campioni con due politiche parametrizzate. La ricerca è dettagliata in arXiv:2507.07986v3.

Fatti principali

EXPO sta per Expressive Policy Optimization.
È un algoritmo RL online per addestrare politiche espressive.
Le politiche espressive includono modelli di diffusione e flow-matching.
L'algoritmo utilizza una politica on-the-fly per massimizzare il Q-value.
Evita l'ottimizzazione diretta sul valore con la politica espressiva.
EXPO è progettato per essere efficiente in termini di campioni.
Utilizza due politiche parametrizzate: una politica base espressiva più grande e una politica on-the-fly.
L'articolo è disponibile su arXiv con ID 2507.07986v3.

EXPO: Apprendimento per Rinforzo Stabile con Politiche Espressive

Fatti principali

Entità

Istituzioni

Fonti