Il Framework HP-Edit Utilizza Dati di Preferenza Umana per Migliorare la Modifica di Immagini Basata su Diffusione
Un nuovo framework post-addestramento chiamato HP-Edit è stato sviluppato per allineare la modifica di immagini basata su diffusione con le preferenze umane, affrontando una lacuna nell'applicazione del Reinforcement Learning from Human Feedback (RLHF) ai compiti di modifica. Il framework sfrutta un piccolo dataset di punteggi di preferenza umana e un modello linguistico visivo pre-addestrato per creare un valutatore automatizzato denominato HP-Scorer. Questo valutatore è progettato per valutare la qualità della modifica in otto compiti comuni, inclusa la modifica di oggetti comuni. La ricerca introduce RealPref-50K, un dataset del mondo reale contenente 50.000 esempi che bilanciano varie esigenze di modifica. Mentre metodi come Diffusion-DPO e Flow-GRPO hanno precedentemente migliorato la qualità della generazione attraverso l'apprendimento per rinforzo, scalare efficientemente l'RLHF per la modifica è rimasto impegnativo a causa di dataset e framework limitati. HP-Edit mira a superare queste limitazioni fornendo un approccio su misura per diverse applicazioni di modifica. Il framework è dettagliato nella preprint arXiv 2604.19406v1, annunciata come abstract interdisciplinare. Utilizzando il feedback umano, il sistema cerca di migliorare la qualità e la pertinenza delle modifiche prodotte da modelli generativi di diffusione, ampiamente utilizzati per la modifica di contenuti nel mondo reale. Lo sviluppo si concentra sul rendere l'allineamento delle preferenze più scalabile ed efficace per scenari di modifica pratici.
Fatti principali
- HP-Edit è un framework post-addestramento per la modifica di immagini allineata alle preferenze umane.
- Utilizza una piccola quantità di dati di punteggio di preferenza umana per sviluppare un valutatore automatizzato chiamato HP-Scorer.
- Il framework introduce RealPref-50K, un dataset con 50.000 esempi in otto compiti di modifica comuni.
- RealPref-50K bilancia la modifica di oggetti comuni e affronta diverse esigenze di modifica.
- HP-Scorer è costruito utilizzando un modello linguistico visivo (VLM) pre-addestrato.
- La ricerca mira ad applicare efficientemente il Reinforcement Learning from Human Feedback (RLHF) alla modifica basata su diffusione.
- Metodi precedenti come Diffusion-DPO e Flow-GRPO hanno migliorato la qualità della generazione attraverso l'apprendimento per rinforzo.
- Il framework è dettagliato nella preprint arXiv 2604.19406v1, annunciata come abstract interdisciplinare.
Entità
—