Il framework CLVR migliora la generazione testo-immagine con ragionamento verificato
Il recentemente introdotto framework Closed-Loop Visual Reasoning (CLVR) mira a superare le carenze dei modelli text-to-image (T2I) combinando la pianificazione logica visivo-linguistica con la generazione di diffusione a livello di pixel. I modelli T2I esistenti si basano tipicamente sulla generazione a singolo passo, che fatica con semantiche complesse e subisce rendimenti decrescenti dal ridimensionamento dei parametri. Sebbene gli approcci di ragionamento multi-passo mostrino potenziale, sono ostacolati da problemi come allucinazioni di pianificazione non fondate e alta latenza di inferenza. CLVR presenta un motore dati automatizzato che consente la verifica visiva a livello di passo per creare percorsi di ragionamento affidabili e introduce il Proxy Prompt Reinforcement Learning (PPRL) per affrontare le instabilità di ottimizzazione in contesti lunghi, perfezionando le storie interleaved multimodali. I dettagli di questo framework sono disponibili nell'articolo arXiv 2605.14876.
Fatti principali
- CLVR sta per Closed-Loop Visual Reasoning.
- Abbina la pianificazione logica visivo-linguistica con la generazione di diffusione a livello di pixel.
- Viene introdotto un motore dati automatizzato con verifica visiva a livello di passo.
- Il Proxy Prompt Reinforcement Learning (PPRL) affronta le instabilità di ottimizzazione in contesti lunghi.
- I modelli T2I attuali si basano sulla generazione a singolo passo e faticano con semantiche complesse.
- Gli approcci di ragionamento multi-passo soffrono di allucinazioni e alta latenza.
- L'articolo è disponibile su arXiv con ID 2605.14876.
- Il framework mira a superare i colli di bottiglia nella generazione T2I.
Entità
Istituzioni
- arXiv