Trust Region Q-Adjoint Matching per un Fine-Tuning Stabile del RL
I ricercatori hanno introdotto Trust Region Q-Adjoint Matching (TRQAM), un metodo efficace di fine-tuning off-policy progettato per politiche di flusso pre-addestrate. L'apprendimento per rinforzo off-policy di queste politiche presenta difficoltà a causa dell'instabilità di ottimizzazione derivante dal campionamento multi-step. Q-learning con Adjoint Matching (QAM) ha affrontato questo problema trasformandolo in un problema di controllo stocastico ottimale (SOC) senza memoria utilizzando un critico appreso; tuttavia, è soggetto a fragilità, poiché piccoli errori nel critico possono amplificarsi quando i critici sono mal condizionati, portando al fallimento del modello. TRQAM gestisce in modo adattivo la divergenza KL nello spazio dei percorsi con politiche di flusso pre-addestrate tramite discesa duale proiettata. Ottimizza il parametro di trust region λ nella dinamica SOC e dimostra che la KL nello spazio dei percorsi può essere espressa come una funzione in forma chiusa di λ, consentendo un controllo accurato. Lo studio è disponibile su arXiv con ID 2605.27079.
Fatti principali
- TRQAM è un algoritmo di fine-tuning off-policy stabile per politiche di flusso pre-addestrate.
- L'RL off-policy delle politiche di flusso è difficile a causa dell'instabilità del campionamento multi-step.
- QAM riformula il problema in un problema SOC senza memoria con un critico appreso.
- QAM soffre di fragilità: piccoli errori del critico si amplificano quando i critici sono mal condizionati.
- TRQAM controlla adattivamente la KL nello spazio dei percorsi tramite discesa duale proiettata.
- Il parametro di trust region λ è ottimizzato nella dinamica SOC.
- La KL nello spazio dei percorsi è rappresentata come una funzione in forma chiusa di λ.
- ID del paper: arXiv:2605.27079.
Entità
Istituzioni
- arXiv