LRA-EE: L'uscita anticipata evita il collasso della quantizzazione in CLIP
Un recente studio pubblicato su arXiv (2605.26415) scopre una modalità di fallimento nei modelli CLIP quantizzati, denominata Collasso della Rappresentazione Indotto dalla Quantizzazione (QIRC). Nel modello INT8 CLIP ViT-B/32, il rumore di attivazione si accumula attraverso i layer del trasformatore, riducendo l'allineamento del coseno durante il recupero zero-shot. Il rapporto rumore-segnale aumenta da meno del 10% nei layer iniziali al 52% nel Layer 11. Per affrontare questo problema, gli autori propongono LRA-EE (Uscita Anticipata Consapevole della Rappresentazione a Livello di Layer), che utilizza l'Aggregazione Spazio-Semantica, un gate appreso multi-caratteristica e una Soglia di Confidenza Adattiva al Layer per evitare i layer più profondi dominati dal rumore.
Fatti principali
- 1. arXiv:2605.26415v1
- 2. La quantizzazione INT8 introduce una modalità di fallimento in CLIP distinta dai classificatori CNN quantizzati
- 3. Il rumore di attivazione perturba la direzione dell'embedding multimodale
- 4. Viene caratterizzato il Collasso della Rappresentazione Indotto dalla Quantizzazione (QIRC)
- 5. Il rapporto rumore-segnale cresce da meno del 10% al 52% al Layer 11 in INT8 CLIP ViT-B/32
- 6. Viene proposto LRA-EE (Uscita Anticipata Consapevole della Rappresentazione a Livello di Layer)
- 7. L'Aggregazione Spazio-Semantica sostituisce l'immature [CLS] superficiale con la media globale dei token patch
- 8. Il gate appreso multi-caratteristica utilizza confidenza, margine top-2 e varianza di attivazione spaziale
Entità
Istituzioni
- arXiv