Il Framework FairNVT Migliora l'Equità nei Vision Transformer Tramite Iniezione di Rumore
È stato introdotto un nuovo framework di debiasing chiamato FairNVT per migliorare l'equità negli encoder pre-addestrati basati su transformer, mantenendo al contempo l'accuratezza del compito. L'approccio affronta simultaneamente l'equità a livello di rappresentazione e di previsione, sostenendo che questi aspetti siano intrinsecamente connessi. Sopprimendo le informazioni sensibili a livello di rappresentazione, il metodo facilita previsioni più eque a valle. FairNVT utilizza adattatori leggeri per apprendere separatamente gli embedding relativi al compito e quelli sensibili. Viene applicato rumore gaussiano calibrato all'embedding sensibile prima di fondersi con la rappresentazione del compito. I vincoli di ortogonalità e la regolarizzazione dell'equità lavorano insieme per ridurre la fuoriuscita di attributi sensibili negli embedding appresi. Il framework è compatibile con vari encoder transformer pre-addestrati ed è stato testato su tre dataset che coprono i domini visivo e linguistico. A differenza di molti approcci esistenti che trattano separatamente l'equità di rappresentazione e di previsione, FairNVT le affronta congiuntamente attraverso la sua metodologia integrata. L'articolo che descrive questo framework è stato annunciato su arXiv con identificatore 2604.16780v1.
Fatti principali
- FairNVT è un framework di debiasing leggero per encoder pre-addestrati basati su transformer
- Migliora sia l'equità a livello di rappresentazione che di previsione, preservando l'accuratezza del compito
- L'approccio sostiene che l'equità di rappresentazione e di previsione siano intrinsecamente connesse
- Utilizza adattatori leggeri per apprendere separatamente gli embedding relativi al compito e quelli sensibili
- Viene applicato rumore gaussiano calibrato agli embedding sensibili
- I vincoli di ortogonalità e la regolarizzazione dell'equità riducono la fuoriuscita di attributi sensibili
- Il framework è compatibile con un'ampia gamma di encoder transformer pre-addestrati
- Testato su tre dataset che coprono i domini visivo e linguistico
Entità
Istituzioni
- arXiv