Dynamic-TreeRPO: Campionamento Strutturato per RL nella Generazione T2I

ai-technology · 2026-05-18

Dynamic-TreeRPO introduce una tecnica innovativa che combina l'apprendimento per rinforzo con modelli di flow matching per generare immagini a partire da testo. Affronta i limiti dei metodi di ricerca esaustiva utilizzando un approccio di campionamento a finestra scorrevole organizzato come una ricerca ad albero, caratterizzato da livelli di rumore dinamici. All'interno di questo quadro, vengono utilizzati l'ottimizzazione guidata da GRPO e il campionamento SDE vincolato, consentendo percorsi di prefisso condivisi che riducono le richieste computazionali. Questo design innovativo aumenta la diversità delle uscite senza costi aggiuntivi, migliorando così la qualità complessiva delle immagini generate.

Fatti principali

1. Dynamic-TreeRPO integra RL nei modelli di flow matching per la generazione T2I.
2. Utilizza una strategia di campionamento a finestra scorrevole come ricerca ad albero.
3. Vengono applicate intensità di rumore dinamiche lungo la profondità dell'albero.
4. Vengono utilizzati l'ottimizzazione guidata da GRPO e il campionamento SDE vincolato.
5. La condivisione del percorso di prefisso ammortizza il costo della ricerca di traiettorie.
6. Il metodo migliora la variazione di esplorazione senza costi computazionali aggiuntivi.
7. Affronta il collo di bottiglia del campionamento di traiettorie indipendenti.
8. L'articolo è disponibile su arXiv con ID 2509.23352.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18