La supervisione testuale allineata alla visione migliora la generazione di ritratti

ai-technology · 2026-05-22

Per affrontare il trilemma della generazione di ritratti umani—allineamento testo-immagine, fotorealismo ed estetica—i ricercatori hanno introdotto un paradigma di supervisione delle caratteristiche per i trasformatori di diffusione multimodali (MM-DiT). Il loro metodo innovativo impiega un meccanismo di allineamento cross-modale leggero che deriva rappresentazioni testuali allineate alla visione a granularità multipla da SigLIP 2, applicando la supervisione al ramo dell'immagine durante l'addestramento senza incorrere in costi di inferenza aggiuntivi. Questa strategia mitiga i rischi di overfitting e di degrado delle conoscenze pre-addestrate tipicamente associati al fine-tuning supervisionato (SFT). I risultati sono dettagliati in un articolo disponibile su arXiv (2605.20640).

Fatti principali

I modelli di diffusione testo-immagine affrontano un trilemma nella generazione di ritratti: allineamento, fotorealismo ed estetica.
Il fine-tuning supervisionato (SFT) può migliorare il fotorealismo ma causa overfitting e degrada l'allineamento o l'estetica.
Il metodo proposto utilizza un meccanismo di allineamento cross-modale leggero con SigLIP 2.
La supervisione viene applicata al ramo dell'immagine di MM-DiT durante l'addestramento.
Non è richiesto alcun costo di inferenza aggiuntivo.
Il metodo preserva la generalizzazione del modello di base.
L'articolo è disponibile su arXiv (2605.20640).
L'approccio è progettato per trasformatori di diffusione multimodali (MM-DiT).

La supervisione testuale allineata alla visione migliora la generazione di ritratti

Fatti principali

Entità

Istituzioni

Fonti