RL Gerarchico Ottimizza i Modelli Multimodali di Diffusione
Un nuovo metodo di apprendimento per rinforzo, Hierarchical Token GRPO (HT-GRPO), affronta le sfide di ottimizzazione nei Modelli Linguistici Multimodali di Diffusione (dMLLMs). L'approccio introduce uno schema di addestramento Sketch-Then-Paint con tre fasi—globale, struttura e raffinamento—per tenere conto del processo di generazione gerarchico in cui i token iniziali definiscono il layout e quelli successivi aggiungono dettagli. Questo metodo migliora l'ottimizzazione delle politiche assegnando ricompense in base al contributo dei token, superando i problemi con i rapporti di importanza intrattabili nelle tecniche RL esistenti. L'articolo è disponibile su arXiv (2605.16842).
Fatti principali
- 1. HT-GRPO integra la generazione gerarchica nell'ottimizzazione delle politiche per i dMLLMs.
- 2. Lo schema Sketch-Then-Paint ha tre fasi: globale, struttura, raffinamento.
- 3. I metodi RL esistenti assegnano ricompense uniformi ignorando il contributo dei token.
- 4. Una singola immagine può essere generata tramite molte sequenze di unmasking, complicando l'RL.
- 5. I token iniziali definiscono il layout globale; quelli successivi si concentrano sui dettagli locali.
- 6. Articolo pubblicato su arXiv con ID 2605.16842.
- 7. Il metodo affronta i rapporti di importanza intrattabili negli attuali approcci RL.
- 8. HT-GRPO sta per Hierarchical Token GRPO.
Entità
Istituzioni
- arXiv