RL Gerarchico Ottimizza i Modelli Multimodali di Diffusione

ai-technology · 2026-05-20

Un nuovo metodo di apprendimento per rinforzo, Hierarchical Token GRPO (HT-GRPO), affronta le sfide di ottimizzazione nei Modelli Linguistici Multimodali di Diffusione (dMLLMs). L'approccio introduce uno schema di addestramento Sketch-Then-Paint con tre fasi—globale, struttura e raffinamento—per tenere conto del processo di generazione gerarchico in cui i token iniziali definiscono il layout e quelli successivi aggiungono dettagli. Questo metodo migliora l'ottimizzazione delle politiche assegnando ricompense in base al contributo dei token, superando i problemi con i rapporti di importanza intrattabili nelle tecniche RL esistenti. L'articolo è disponibile su arXiv (2605.16842).

Fatti principali

1. HT-GRPO integra la generazione gerarchica nell'ottimizzazione delle politiche per i dMLLMs.
2. Lo schema Sketch-Then-Paint ha tre fasi: globale, struttura, raffinamento.
3. I metodi RL esistenti assegnano ricompense uniformi ignorando il contributo dei token.
4. Una singola immagine può essere generata tramite molte sequenze di unmasking, complicando l'RL.
5. I token iniziali definiscono il layout globale; quelli successivi si concentrano sui dettagli locali.
6. Articolo pubblicato su arXiv con ID 2605.16842.
7. Il metodo affronta i rapporti di importanza intrattabili negli attuali approcci RL.
8. HT-GRPO sta per Hierarchical Token GRPO.

RL Gerarchico Ottimizza i Modelli Multimodali di Diffusione

Fatti principali

Entità

Istituzioni

Fonti