I VLM sopprimono le rappresentazioni femminili in input ambigui

ai-technology · 2026-06-01

Una recente indagine indica che i modelli visione-linguaggio (VLM) tendono ad associare immagini ambigue dal punto di vista del genere a identità maschili, anche in contesti che coinvolgono occupazioni tipicamente legate alle donne. Lo studio presenta LALS (Latent Association Learning Score), una nuova metrica zero-shot progettata per valutare le associazioni concettuali interne mappando le attivazioni dei token visivi nello spazio di embedding testuale. Analizzando oltre 800 immagini ambigue in 15 occupazioni e quattro VLM, i ricercatori hanno scoperto un disallineamento costante: mentre i modelli codificano frequentemente associazioni femminili internamente, producono prevalentemente output maschili. Questa discrepanza sottolinea l'inadeguatezza delle tecniche di allineamento quando si ha a che fare con input ambigui, che sono prevalenti negli scenari reali.

Fatti principali

I VLM scelgono associazioni maschili per immagini ambigue dal punto di vista del genere
Anche occupazioni stereotipicamente femminili attivano default maschili
La metrica LALS misura le associazioni concettuali interne per token e strato
Lo studio ha testato 15 occupazioni, oltre 800 immagini e quattro VLM
Rappresentazioni interne e output sono sistematicamente disaccoppiati
I modelli spesso codificano associazioni femminili internamente ma producono output maschili
Una pressione minima del prompt rivela i default occupazione-genere
Gli input ambigui sono comuni nella pratica ma raramente studiati

I VLM sopprimono le rappresentazioni femminili in input ambigui

Fatti principali

Entità

Istituzioni

Fonti