La quantizzazione annulla l'allineamento: emergenza di bias nei LLM compressi

ai-technology · 2026-05-18

Una recente indagine pubblicata su arXiv indica che l'applicazione della quantizzazione post-addestramento ai modelli linguistici di grandi dimensioni (LLM) può portare alla ricomparsa di stereotipi distorti, anche in modelli inizialmente ben allineati. Lo studio ha valutato tre modelli istruiti—Qwen2.5-7B, Mistral-7B e Phi-3.5-mini—attraverso cinque livelli di precisione, da BF16 a 3 bit. I ricercatori hanno utilizzato 12.148 elementi dal benchmark di bias BBQ, conducendo un totale di 911.100 record di inferenza su cinque semi casuali. I risultati rivelano una chiara relazione dose-risposta: la quantizzazione a 3 bit ha portato al 6-21% di elementi precedentemente imparziali a mostrare nuovi comportamenti stereotipati, come confermato dalla regressione logistica. Ciò sottolinea la necessità di metodi di compressione consapevoli dei bias per garantire un'implementazione sicura degli LLM quantizzati in ambienti cloud e edge.

Fatti principali

Studio condotto su arXiv:2605.15208
Modelli: Qwen2.5-7B, Mistral-7B, Phi-3.5-mini
Livelli di precisione: da BF16 a 3 bit
Benchmark: 12.148 elementi di bias BBQ
Semi casuali: 5
Record di inferenza totali: 911.100
La quantizzazione a 3 bit causa nel 6-21% degli elementi imparziali lo sviluppo di comportamenti stereotipati
Pattern dose-risposta confermato tramite regressione logistica

La quantizzazione annulla l'allineamento: emergenza di bias nei LLM compressi

Fatti principali

Entità

Istituzioni

Fonti