Il Potatura dei Pesi Amplifica i Pregiudizi nei LLM per l'Edge AI
Una recente indagine pubblicata su arXiv indica che la potatura dei pesi, un metodo per implementare modelli linguistici di grandi dimensioni (LLM) su dispositivi IoT e edge con risorse limitate, può amplificare notevolmente i pregiudizi del modello. Lo studio ha comportato un'analisi empirica sistematica di tre modelli ottimizzati tramite istruzioni (Gemma-2-9b-it, Mistral-7B-Instruct-v0.3, Phi-3.5-mini-instruct) e ha esaminato tre tecniche di potatura (Random, Magnitude, Wanda) su quattro livelli di sparsità (10-70%) utilizzando 12.148 elementi del benchmark di bias BBQ con cinque semi casuali, risultando in 2.368.860 record di inferenza. I risultati rivelano un "Paradosso della Potatura Intelligente": mentre la potatura attenta all'attivazione (Wanda) mantiene la perplessità con un aumento di solo il 3,5% al 50% di sparsità per Mistral-7B, porta anche al maggiore aumento del pregiudizio. Al 70% di sparsità, il Punteggio di Dipendenza dagli Stereotipi aumenta dell'83,7%, con il 47-59% degli elementi precedentemente imparziali che mostrano nuovi comportamenti stereotipati. La potatura casuale mina completamente la capacità linguistica, con una perplessità superiore a 10^4. Questa ricerca sottolinea le conseguenze indesiderate dei metodi di potatura orientati all'efficienza, che possono compromettere l'equità nelle applicazioni edge AI.
Fatti principali
- Studio condotto su tre modelli ottimizzati tramite istruzioni: Gemma-2-9b-it, Mistral-7B-Instruct-v0.3, Phi-3.5-mini-instruct
- Tre metodi di potatura testati: Random, Magnitude, Wanda
- Quattro livelli di sparsità: 10-70%
- Dataset: 12.148 elementi del benchmark di bias BBQ con 5 semi casuali
- Record di inferenza totali: 2.368.860
- La potatura Wanda preserva la perplessità (aumento del 3,5% al 50% di sparsità per Mistral-7B) ma amplifica maggiormente il pregiudizio
- Al 70% di sparsità, il Punteggio di Dipendenza dagli Stereotipi aumenta dell'83,7%
- Il 47-59% degli elementi precedentemente imparziali sviluppa nuovi comportamenti stereotipati al 70% di sparsità
Entità
Istituzioni
- arXiv