ViPO: Dataset di Preferenze su Vasta Scala per Modelli Generativi Visivi

ai-technology · 2026-04-30

Un nuovo articolo di ricerca introduce ViPO, un dataset di preferenze su vasta scala contenente 1 milione di coppie di immagini, progettato per migliorare i modelli generativi visivi attraverso l'ottimizzazione delle preferenze. Gli autori identificano criticità nei dataset open-source esistenti, tra cui pattern di preferenza conflittuali in cui i vincitori eccellono in alcune dimensioni ma sono inferiori in altre, bassa risoluzione, diversità limitata dei prompt e distribuzioni sbilanciate. Per affrontare il rumore nei dati di preferenza, propongono Poly-DPO, un'estensione dell'obiettivo DPO che incorpora un termine polinomiale per regolare dinamicamente la confidenza del modello in base alle caratteristiche del dataset. Il lavoro mira a consentire un scaling efficace dell'ottimizzazione delle preferenze per la generazione visiva, affrontando sia i colli di bottiglia algoritmici che quelli dei dati.

Fatti principali

Il dataset ViPO contiene 1 milione di coppie di immagini
I dataset esistenti presentano pattern di preferenza conflittuali
Poly-DPO estende DPO con un termine polinomiale
Poly-DPO regola dinamicamente la confidenza del modello
I dataset soffrono di bassa risoluzione e limitata diversità dei prompt
L'articolo proviene da arXiv:2604.24953v2
L'ottimizzazione delle preferenze è cruciale per i modelli generativi visivi
L'ottimizzazione ingenua su dataset rumorosi non riesce ad apprendere le preferenze

ViPO: Dataset di Preferenze su Vasta Scala per Modelli Generativi Visivi

Fatti principali

Entità

Istituzioni

Fonti