Semi-DPO: Apprendimento Semi-Supervisionato per Preferenze Rumorose nella Diffusion DPO
Uno studio recente pubblicato su arXiv (2604.24952) presenta Semi-DPO, un metodo di apprendimento semi-supervisionato progettato per affrontare il rumore delle etichette nell'Ottimizzazione Diretta delle Preferenze (DPO) per modelli di diffusione. Mentre le preferenze visive umane sono intrinsecamente multidimensionali, i dataset attuali le riducono a semplici etichette binarie (vincitore/perdente), generando segnali di gradiente contrastanti. Semi-DPO identifica coppie di preferenze consistenti come dati etichettati puliti e tratta le coppie contrastanti come dati non etichettati rumorosi. Inizialmente, si addestra su un sottoinsieme pulito filtrato per consenso, e successivamente utilizza il modello come classificatore implicito per creare pseudo-etichette per i dati rumorosi, consentendo un raffinamento iterativo. Questo approccio raggiunge prestazioni all'avanguardia.
Fatti principali
- Articolo arXiv 2604.24952
- Semi-DPO affronta il rumore delle etichette nella Diffusion DPO
- Le preferenze visive umane sono multidimensionali
- I dataset esistenti utilizzano singole etichette binarie
- Segnali di gradiente contrastanti fuorviano la DPO
- Semi-DPO utilizza apprendimento semi-supervisionato
- Coppie consistenti sono dati etichettati puliti
- Coppie contrastanti sono dati non etichettati rumorosi
- Sottoinsieme pulito filtrato per consenso per l'addestramento iniziale
- Classificatore implicito genera pseudo-etichette
- Raffinamento iterativo migliora le prestazioni
- Risultati all'avanguardia riportati
Entità
Istituzioni
- arXiv