Impossibilità di una classifica fedele, stabile e completa delle caratteristiche in presenza di collinearità
Un recente studio pubblicato su arXiv dimostra che è impossibile per qualsiasi tecnica di classificazione delle caratteristiche essere simultaneamente fedele, stabile e completa in presenza di caratteristiche collineari. In caso di collinearità, le classifiche diventano casuali. Questa limitazione è illustrata attraverso quattro diversi tipi di modello: per il gradient boosting, il rapporto di attribuzione diverge come 1/(1-rho^2), è infinito per Lasso e converge nelle foreste casuali. Gli autori affrontano questa sfida attraverso la media d'insieme con DASH (Diversified Aggregation of SHAP), che si dimostra Pareto-ottimale tra le aggregazioni imparziali e soddisfa il limite di varianza di Cramer-Rao con una formula precisa per la dimensione dell'insieme. L'analisi identifica due famiglie distinte: metodi fedeli-completi (instabili, con classifiche che cambiano fino al 50% delle volte) e metodi d'insieme stabili come DASH, che riportano pareggi per caratteristiche simmetriche. I risultati sono verificati da 305 teoremi in Lean 4.
Fatti principali
- Nessuna classifica di caratteristiche può essere simultaneamente fedele, stabile e completa in presenza di collinearità.
- Per coppie collineari, la classifica si riduce a un lancio di moneta.
- Impossibilità quantificata per quattro classi di modelli: gradient boosting, Lasso, foreste casuali e altri.
- Il rapporto di attribuzione diverge come 1/(1-rho^2) per il gradient boosting.
- Il rapporto di attribuzione è infinito per Lasso.
- Il rapporto di attribuzione converge per le foreste casuali.
- DASH (Diversified Aggregation of SHAP) risolve l'impossibilità tramite media d'insieme.
- DASH è provatamente Pareto-ottimale tra le aggregazioni imparziali.
- DASH raggiunge il limite di varianza di Cramer-Rao con una formula precisa per la dimensione dell'insieme.
- Esistono due famiglie di metodi: fedeli-completi (instabili) e metodi d'insieme come DASH (stabili).
- I metodi fedeli-completi hanno classifiche che si capovolgono fino al 50% delle volte.
- I metodi d'insieme riportano pareggi per caratteristiche simmetriche.
- L'impossibilità è verificata meccanicamente con 305 teoremi in Lean 4.
Entità
Istituzioni
- arXiv