Semi-DPO: Apprendimento Semi-Supervisionato per Preferenze Rumorose nella Diffusion DPO

ai-technology · 2026-04-30

Uno studio recente pubblicato su arXiv (2604.24952) presenta Semi-DPO, un metodo di apprendimento semi-supervisionato progettato per affrontare il rumore delle etichette nell'Ottimizzazione Diretta delle Preferenze (DPO) per modelli di diffusione. Mentre le preferenze visive umane sono intrinsecamente multidimensionali, i dataset attuali le riducono a semplici etichette binarie (vincitore/perdente), generando segnali di gradiente contrastanti. Semi-DPO identifica coppie di preferenze consistenti come dati etichettati puliti e tratta le coppie contrastanti come dati non etichettati rumorosi. Inizialmente, si addestra su un sottoinsieme pulito filtrato per consenso, e successivamente utilizza il modello come classificatore implicito per creare pseudo-etichette per i dati rumorosi, consentendo un raffinamento iterativo. Questo approccio raggiunge prestazioni all'avanguardia.

Fatti principali

Articolo arXiv 2604.24952
Semi-DPO affronta il rumore delle etichette nella Diffusion DPO
Le preferenze visive umane sono multidimensionali
I dataset esistenti utilizzano singole etichette binarie
Segnali di gradiente contrastanti fuorviano la DPO
Semi-DPO utilizza apprendimento semi-supervisionato
Coppie consistenti sono dati etichettati puliti
Coppie contrastanti sono dati non etichettati rumorosi
Sottoinsieme pulito filtrato per consenso per l'addestramento iniziale
Classificatore implicito genera pseudo-etichette
Raffinamento iterativo migliora le prestazioni
Risultati all'avanguardia riportati

Semi-DPO: Apprendimento Semi-Supervisionato per Preferenze Rumorose nella Diffusion DPO

Fatti principali

Entità

Istituzioni

Fonti