ARTFEED — Contemporary Art Intelligence

Semi-DPO: Apprendimento Semi-Supervisionato per Preferenze Rumorose nella Diffusion DPO

ai-technology · 2026-04-30

Uno studio recente pubblicato su arXiv (2604.24952) presenta Semi-DPO, un metodo di apprendimento semi-supervisionato progettato per affrontare il rumore delle etichette nell'Ottimizzazione Diretta delle Preferenze (DPO) per modelli di diffusione. Mentre le preferenze visive umane sono intrinsecamente multidimensionali, i dataset attuali le riducono a semplici etichette binarie (vincitore/perdente), generando segnali di gradiente contrastanti. Semi-DPO identifica coppie di preferenze consistenti come dati etichettati puliti e tratta le coppie contrastanti come dati non etichettati rumorosi. Inizialmente, si addestra su un sottoinsieme pulito filtrato per consenso, e successivamente utilizza il modello come classificatore implicito per creare pseudo-etichette per i dati rumorosi, consentendo un raffinamento iterativo. Questo approccio raggiunge prestazioni all'avanguardia.

Fatti principali

  • Articolo arXiv 2604.24952
  • Semi-DPO affronta il rumore delle etichette nella Diffusion DPO
  • Le preferenze visive umane sono multidimensionali
  • I dataset esistenti utilizzano singole etichette binarie
  • Segnali di gradiente contrastanti fuorviano la DPO
  • Semi-DPO utilizza apprendimento semi-supervisionato
  • Coppie consistenti sono dati etichettati puliti
  • Coppie contrastanti sono dati non etichettati rumorosi
  • Sottoinsieme pulito filtrato per consenso per l'addestramento iniziale
  • Classificatore implicito genera pseudo-etichette
  • Raffinamento iterativo migliora le prestazioni
  • Risultati all'avanguardia riportati

Entità

Istituzioni

  • arXiv

Fonti