ARTFEED — Contemporary Art Intelligence

Trust Region Q-Adjoint Matching per un Fine-Tuning Stabile del RL

other · 2026-05-27

I ricercatori hanno introdotto Trust Region Q-Adjoint Matching (TRQAM), un metodo efficace di fine-tuning off-policy progettato per politiche di flusso pre-addestrate. L'apprendimento per rinforzo off-policy di queste politiche presenta difficoltà a causa dell'instabilità di ottimizzazione derivante dal campionamento multi-step. Q-learning con Adjoint Matching (QAM) ha affrontato questo problema trasformandolo in un problema di controllo stocastico ottimale (SOC) senza memoria utilizzando un critico appreso; tuttavia, è soggetto a fragilità, poiché piccoli errori nel critico possono amplificarsi quando i critici sono mal condizionati, portando al fallimento del modello. TRQAM gestisce in modo adattivo la divergenza KL nello spazio dei percorsi con politiche di flusso pre-addestrate tramite discesa duale proiettata. Ottimizza il parametro di trust region λ nella dinamica SOC e dimostra che la KL nello spazio dei percorsi può essere espressa come una funzione in forma chiusa di λ, consentendo un controllo accurato. Lo studio è disponibile su arXiv con ID 2605.27079.

Fatti principali

  • TRQAM è un algoritmo di fine-tuning off-policy stabile per politiche di flusso pre-addestrate.
  • L'RL off-policy delle politiche di flusso è difficile a causa dell'instabilità del campionamento multi-step.
  • QAM riformula il problema in un problema SOC senza memoria con un critico appreso.
  • QAM soffre di fragilità: piccoli errori del critico si amplificano quando i critici sono mal condizionati.
  • TRQAM controlla adattivamente la KL nello spazio dei percorsi tramite discesa duale proiettata.
  • Il parametro di trust region λ è ottimizzato nella dinamica SOC.
  • La KL nello spazio dei percorsi è rappresentata come una funzione in forma chiusa di λ.
  • ID del paper: arXiv:2605.27079.

Entità

Istituzioni

  • arXiv

Fonti