Trust Region Q-Adjoint Matching per un Fine-Tuning Stabile del RL

other · 2026-05-27

I ricercatori hanno introdotto Trust Region Q-Adjoint Matching (TRQAM), un metodo efficace di fine-tuning off-policy progettato per politiche di flusso pre-addestrate. L'apprendimento per rinforzo off-policy di queste politiche presenta difficoltà a causa dell'instabilità di ottimizzazione derivante dal campionamento multi-step. Q-learning con Adjoint Matching (QAM) ha affrontato questo problema trasformandolo in un problema di controllo stocastico ottimale (SOC) senza memoria utilizzando un critico appreso; tuttavia, è soggetto a fragilità, poiché piccoli errori nel critico possono amplificarsi quando i critici sono mal condizionati, portando al fallimento del modello. TRQAM gestisce in modo adattivo la divergenza KL nello spazio dei percorsi con politiche di flusso pre-addestrate tramite discesa duale proiettata. Ottimizza il parametro di trust region λ nella dinamica SOC e dimostra che la KL nello spazio dei percorsi può essere espressa come una funzione in forma chiusa di λ, consentendo un controllo accurato. Lo studio è disponibile su arXiv con ID 2605.27079.

Fatti principali

TRQAM è un algoritmo di fine-tuning off-policy stabile per politiche di flusso pre-addestrate.
L'RL off-policy delle politiche di flusso è difficile a causa dell'instabilità del campionamento multi-step.
QAM riformula il problema in un problema SOC senza memoria con un critico appreso.
QAM soffre di fragilità: piccoli errori del critico si amplificano quando i critici sono mal condizionati.
TRQAM controlla adattivamente la KL nello spazio dei percorsi tramite discesa duale proiettata.
Il parametro di trust region λ è ottimizzato nella dinamica SOC.
La KL nello spazio dei percorsi è rappresentata come una funzione in forma chiusa di λ.
ID del paper: arXiv:2605.27079.

Trust Region Q-Adjoint Matching per un Fine-Tuning Stabile del RL

Fatti principali

Entità

Istituzioni

Fonti