ARTFEED — Contemporary Art Intelligence

I VLM sopprimono le rappresentazioni femminili in input ambigui

ai-technology · 2026-06-01

Una recente indagine indica che i modelli visione-linguaggio (VLM) tendono ad associare immagini ambigue dal punto di vista del genere a identità maschili, anche in contesti che coinvolgono occupazioni tipicamente legate alle donne. Lo studio presenta LALS (Latent Association Learning Score), una nuova metrica zero-shot progettata per valutare le associazioni concettuali interne mappando le attivazioni dei token visivi nello spazio di embedding testuale. Analizzando oltre 800 immagini ambigue in 15 occupazioni e quattro VLM, i ricercatori hanno scoperto un disallineamento costante: mentre i modelli codificano frequentemente associazioni femminili internamente, producono prevalentemente output maschili. Questa discrepanza sottolinea l'inadeguatezza delle tecniche di allineamento quando si ha a che fare con input ambigui, che sono prevalenti negli scenari reali.

Fatti principali

  • I VLM scelgono associazioni maschili per immagini ambigue dal punto di vista del genere
  • Anche occupazioni stereotipicamente femminili attivano default maschili
  • La metrica LALS misura le associazioni concettuali interne per token e strato
  • Lo studio ha testato 15 occupazioni, oltre 800 immagini e quattro VLM
  • Rappresentazioni interne e output sono sistematicamente disaccoppiati
  • I modelli spesso codificano associazioni femminili internamente ma producono output maschili
  • Una pressione minima del prompt rivela i default occupazione-genere
  • Gli input ambigui sono comuni nella pratica ma raramente studiati

Entità

Istituzioni

  • arXiv

Fonti