La supervisione testuale allineata alla visione migliora la generazione di ritratti
Per affrontare il trilemma della generazione di ritratti umani—allineamento testo-immagine, fotorealismo ed estetica—i ricercatori hanno introdotto un paradigma di supervisione delle caratteristiche per i trasformatori di diffusione multimodali (MM-DiT). Il loro metodo innovativo impiega un meccanismo di allineamento cross-modale leggero che deriva rappresentazioni testuali allineate alla visione a granularità multipla da SigLIP 2, applicando la supervisione al ramo dell'immagine durante l'addestramento senza incorrere in costi di inferenza aggiuntivi. Questa strategia mitiga i rischi di overfitting e di degrado delle conoscenze pre-addestrate tipicamente associati al fine-tuning supervisionato (SFT). I risultati sono dettagliati in un articolo disponibile su arXiv (2605.20640).
Fatti principali
- I modelli di diffusione testo-immagine affrontano un trilemma nella generazione di ritratti: allineamento, fotorealismo ed estetica.
- Il fine-tuning supervisionato (SFT) può migliorare il fotorealismo ma causa overfitting e degrada l'allineamento o l'estetica.
- Il metodo proposto utilizza un meccanismo di allineamento cross-modale leggero con SigLIP 2.
- La supervisione viene applicata al ramo dell'immagine di MM-DiT durante l'addestramento.
- Non è richiesto alcun costo di inferenza aggiuntivo.
- Il metodo preserva la generalizzazione del modello di base.
- L'articolo è disponibile su arXiv (2605.20640).
- L'approccio è progettato per trasformatori di diffusione multimodali (MM-DiT).
Entità
Istituzioni
- arXiv