La distillazione dei dataset crea disparità di equità tra gruppi demografici
Un nuovo studio rivela che la distillazione dei dataset, una tecnica per comprimere grandi dataset in sintetici più piccoli, può introdurre significative disparità di equità tra gruppi demografici. La ricerca, pubblicata su arXiv (2605.00185), dimostra che i modelli addestrati su dati distillati hanno prestazioni scadenti per alcuni sottogruppi a causa di discrepanze nei pattern predittivi, non solo per squilibri nella dimensione del campione. Gli autori propongono una soluzione che utilizza un baricentro agnostico rispetto allo squilibrio di gruppo per allineare le rappresentazioni tra i gruppi.
Fatti principali
- La distillazione dei dataset comprime grandi dataset in piccoli sintetici mantenendo le prestazioni predittive.
- Diversi gruppi demografici mostrano pattern predittivi distinti.
- La distillazione fatica a preservare segnali informativi per tutti i sottogruppi, indipendentemente dal bilanciamento delle dimensioni del gruppo.
- I modelli addestrati su dati distillati possono subire cali significativi di prestazioni per alcuni sottogruppi.
- Le disparità di equità non scompaiono semplicemente correggendo lo squilibrio di gruppo.
- Le disparità derivano da discrepanze fondamentali nei pattern predittivi dei sottogruppi, non solo da differenze nella dimensione del campione.
- Lo studio analizza formalmente l'interazione tra due fonti di bias.
- La soluzione prevede l'identificazione di un baricentro agnostico rispetto allo squilibrio di gruppo delle informazioni predittive.
Entità
Istituzioni
- arXiv