TMPO: Ottimizzazione della Politica tramite Abbinamento di Traiettorie per l'Allineamento della Diffusione
Un nuovo metodo di apprendimento per rinforzo, Trajectory Matching Policy Optimization (TMPO), affronta il problema del reward hacking nell'allineamento dei modelli di diffusione. A differenza degli approcci RL esistenti che massimizzano il reward atteso e causano il collasso modale, TMPO abbina le distribuzioni di reward a livello di traiettoria utilizzando un obiettivo di Softmax Trajectory Balance. Questo obiettivo garantisce che la distribuzione di probabilità della politica su K traiettorie si allinei con una distribuzione di Boltzmann indotta dal reward, preservando la diversità generativa. Il metodo è presentato in un articolo su arXiv (2605.10983) e si rivolge a compiti downstream in cui output diversificati sono critici.
Fatti principali
- 1. TMPO sostituisce la massimizzazione del reward scalare con l'abbinamento della distribuzione di reward a livello di traiettoria.
- 2. Introduce un obiettivo di Softmax Trajectory Balance (Softmax-TB).
- 3. L'obiettivo abbina le probabilità della politica di K traiettorie a una distribuzione di Boltzmann indotta dal reward.
- 4. TMPO mira a prevenire il collasso modale e il reward hacking nei modelli di diffusione.
- 5. L'articolo è disponibile su arXiv con ID 2605.10983.
- 6. Il metodo è progettato per allineare i modelli di diffusione a compiti downstream.
- 7. I metodi RL esistenti soffrono di un comportamento di ricerca della moda che riduce la diversità.
- 8. TMPO eredita la proprietà di copertura della moda della divergenza KL forward.
Entità
Istituzioni
- arXiv