ARTFEED — Contemporary Art Intelligence

TMPO: Ottimizzazione della Politica tramite Abbinamento di Traiettorie per l'Allineamento della Diffusione

other · 2026-05-13

Un nuovo metodo di apprendimento per rinforzo, Trajectory Matching Policy Optimization (TMPO), affronta il problema del reward hacking nell'allineamento dei modelli di diffusione. A differenza degli approcci RL esistenti che massimizzano il reward atteso e causano il collasso modale, TMPO abbina le distribuzioni di reward a livello di traiettoria utilizzando un obiettivo di Softmax Trajectory Balance. Questo obiettivo garantisce che la distribuzione di probabilità della politica su K traiettorie si allinei con una distribuzione di Boltzmann indotta dal reward, preservando la diversità generativa. Il metodo è presentato in un articolo su arXiv (2605.10983) e si rivolge a compiti downstream in cui output diversificati sono critici.

Fatti principali

  • 1. TMPO sostituisce la massimizzazione del reward scalare con l'abbinamento della distribuzione di reward a livello di traiettoria.
  • 2. Introduce un obiettivo di Softmax Trajectory Balance (Softmax-TB).
  • 3. L'obiettivo abbina le probabilità della politica di K traiettorie a una distribuzione di Boltzmann indotta dal reward.
  • 4. TMPO mira a prevenire il collasso modale e il reward hacking nei modelli di diffusione.
  • 5. L'articolo è disponibile su arXiv con ID 2605.10983.
  • 6. Il metodo è progettato per allineare i modelli di diffusione a compiti downstream.
  • 7. I metodi RL esistenti soffrono di un comportamento di ricerca della moda che riduce la diversità.
  • 8. TMPO eredita la proprietà di copertura della moda della divergenza KL forward.

Entità

Istituzioni

  • arXiv

Fonti