L'ottimizzazione vincolata da ancore migliora la qualità percettiva nei modelli di diffusione
Uno studio recente pubblicato su arXiv (2604.26348) introduce un framework di ottimizzazione vincolato da ancore per integrare la qualità percettiva senza riferimento nell'addestramento dei modelli di diffusione. Tradizionalmente, i modelli di diffusione si basano su obiettivi con riferimento completo che si concentrano sull'allineamento pixel-wise con le immagini ground-truth, il che potrebbe non riflettere pienamente la percezione visiva soggettiva o la coerenza semantica tra testo e immagini. Un ostacolo significativo è che l'ottimizzazione diretta dei segnali di valutazione della qualità dell'immagine senza riferimento (NR-IQA) può portare a una mancata corrispondenza con gli obiettivi originali di diffusione, causando instabilità nell'addestramento e deriva distribuzionale. L'approccio proposto utilizza un modello NR-IQA appreso come segnale di guida percettiva all'interno di un framework vincolato da ancore, facilitando un adattamento percettivo stabile. L'articolo è accessibile all'indirizzo https://arxiv.org/abs/2604.26348.
Fatti principali
- L'articolo arXiv:2604.26348 propone l'ottimizzazione percettiva vincolata da ancore per i modelli di diffusione.
- Gli obiettivi con riferimento completo nell'addestramento dei modelli di diffusione potrebbero non garantire la qualità visiva soggettiva.
- L'ottimizzazione diretta dei segnali percettivi senza riferimento causa instabilità nell'addestramento.
- Il framework utilizza un modello NR-IQA appreso come guida percettiva.
- I vincoli di ancoraggio consentono un adattamento stabile senza deriva distribuzionale.
- L'articolo affronta la coerenza semantica testo-immagine.
- Pubblicato su arXiv con tipo cross.
- Disponibile all'indirizzo https://arxiv.org/abs/2604.26348.
Entità
Istituzioni
- arXiv