Pipeline Open-Source per il Controllo dell'Illuminazione nei Modelli di Diffusione
È stata svelata una nuova pipeline completamente open-source e riproducibile per padroneggiare il controllo dell'illuminazione nei modelli di diffusione. Questo metodo utilizza un motore dati per convertire immagini ben illuminate in triplette di addestramento supervisionato, composte da un'immagine di input scarsamente illuminata, una direttiva di illuminazione in linguaggio naturale e un'immagine di output ben illuminata. Il modello di diffusione viene quindi messo a punto utilizzando questo dataset, dimostrando notevoli miglioramenti rispetto ai modelli di base SD 1.5, SDXL e FLUX.1-dev in termini di similarità percettiva, similarità strutturale e preservazione dell'identità. Questa soluzione è costruita esclusivamente con risorse open-source e dati accessibili pubblicamente, colmando il vuoto lasciato dai modelli proprietari che richiedono estesi input di controllo come mappe di profondità o non forniscono codice e dati.
Fatti principali
- La pipeline è completamente open-source e riproducibile.
- Il motore dati crea triplette di addestramento da immagini ben illuminate.
- Le triplette sono composte da input scarsamente illuminato, istruzione di illuminazione e output ben illuminato.
- Il modello di diffusione messo a punto supera SD 1.5, SDXL e FLUX.1-dev.
- Miglioramenti in similarità percettiva, similarità strutturale e preservazione dell'identità.
- Costruito con strumenti open-source e dati pubblicamente disponibili.
- Affronta le limitazioni dei modelli closed-source che richiedono input di controllo pesanti.
- Articolo disponibile su arXiv con identificatore 2604.24877.
Entità
—