Nuovo framework consente agli utenti di definire l'equità nella generazione di immagini AI
Un nuovo articolo di ricerca propone un framework leggero che permette agli utenti di specificare la propria definizione di equità quando generano immagini con modelli text-to-image come Stable Diffusion e DALL-E. Il sistema interviene a livello di prompt durante l'inferenza, evitando la necessità di riaddestramento o dataset curati. Gli utenti possono scegliere tra molteplici specifiche di equità, da semplici distribuzioni uniformi a definizioni complesse informate da un grande modello linguistico. Ciò affronta il problema di questi modelli che spesso replicano pregiudizi sociali, come raffigurare individui con carnagione chiara per professioni di alto status come 'medico' o 'CEO', mentre mostrano maggiore diversità per ruoli di basso status come 'bidello'. Il framework rende la mitigazione dei pregiudizi accessibile agli utenti comuni senza richiedere competenze tecniche.
Fatti principali
- I modelli text-to-image come Stable Diffusion e DALL-E replicano i pregiudizi sociali nelle raffigurazioni delle professioni
- Prompt come 'medico' o 'CEO' producono output con carnagione chiara, mentre 'bidello' mostra maggiore diversità
- I metodi di mitigazione esistenti richiedono riaddestramento o dataset curati
- Il nuovo framework è leggero e opera al momento dell'inferenza tramite intervento a livello di prompt
- Gli utenti possono selezionare tra molteplici specifiche di equità, dalla distribuzione uniforme a definizioni informate da LLM
- Non è necessaria alcuna modifica al modello sottostante
- L'approccio è progettato per essere accessibile alla maggior parte degli utenti
- L'articolo è pubblicato su arXiv con ID 2604.21036
Entità
Istituzioni
- Stable Diffusion
- DALL-E
- arXiv