La quantizzazione annulla l'allineamento: emergenza di bias nei LLM compressi
Una recente indagine pubblicata su arXiv indica che l'applicazione della quantizzazione post-addestramento ai modelli linguistici di grandi dimensioni (LLM) può portare alla ricomparsa di stereotipi distorti, anche in modelli inizialmente ben allineati. Lo studio ha valutato tre modelli istruiti—Qwen2.5-7B, Mistral-7B e Phi-3.5-mini—attraverso cinque livelli di precisione, da BF16 a 3 bit. I ricercatori hanno utilizzato 12.148 elementi dal benchmark di bias BBQ, conducendo un totale di 911.100 record di inferenza su cinque semi casuali. I risultati rivelano una chiara relazione dose-risposta: la quantizzazione a 3 bit ha portato al 6-21% di elementi precedentemente imparziali a mostrare nuovi comportamenti stereotipati, come confermato dalla regressione logistica. Ciò sottolinea la necessità di metodi di compressione consapevoli dei bias per garantire un'implementazione sicura degli LLM quantizzati in ambienti cloud e edge.
Fatti principali
- Studio condotto su arXiv:2605.15208
- Modelli: Qwen2.5-7B, Mistral-7B, Phi-3.5-mini
- Livelli di precisione: da BF16 a 3 bit
- Benchmark: 12.148 elementi di bias BBQ
- Semi casuali: 5
- Record di inferenza totali: 911.100
- La quantizzazione a 3 bit causa nel 6-21% degli elementi imparziali lo sviluppo di comportamenti stereotipati
- Pattern dose-risposta confermato tramite regressione logistica
Entità
Istituzioni
- arXiv