TMPO: Ottimizzazione della Politica tramite Abbinamento di Traiettorie per l'Allineamento della Diffusione

other · 2026-05-13

Un nuovo metodo di apprendimento per rinforzo, Trajectory Matching Policy Optimization (TMPO), affronta il problema del reward hacking nell'allineamento dei modelli di diffusione. A differenza degli approcci RL esistenti che massimizzano il reward atteso e causano il collasso modale, TMPO abbina le distribuzioni di reward a livello di traiettoria utilizzando un obiettivo di Softmax Trajectory Balance. Questo obiettivo garantisce che la distribuzione di probabilità della politica su K traiettorie si allinei con una distribuzione di Boltzmann indotta dal reward, preservando la diversità generativa. Il metodo è presentato in un articolo su arXiv (2605.10983) e si rivolge a compiti downstream in cui output diversificati sono critici.

Fatti principali

1. TMPO sostituisce la massimizzazione del reward scalare con l'abbinamento della distribuzione di reward a livello di traiettoria.
2. Introduce un obiettivo di Softmax Trajectory Balance (Softmax-TB).
3. L'obiettivo abbina le probabilità della politica di K traiettorie a una distribuzione di Boltzmann indotta dal reward.
4. TMPO mira a prevenire il collasso modale e il reward hacking nei modelli di diffusione.
5. L'articolo è disponibile su arXiv con ID 2605.10983.
6. Il metodo è progettato per allineare i modelli di diffusione a compiti downstream.
7. I metodi RL esistenti soffrono di un comportamento di ricerca della moda che riduce la diversità.
8. TMPO eredita la proprietà di copertura della moda della divergenza KL forward.

TMPO: Ottimizzazione della Politica tramite Abbinamento di Traiettorie per l'Allineamento della Diffusione

Fatti principali

Entità

Istituzioni

Fonti