ARTFEED — Contemporary Art Intelligence

LRA-EE: L'uscita anticipata evita il collasso della quantizzazione in CLIP

ai-technology · 2026-05-27

Un recente studio pubblicato su arXiv (2605.26415) scopre una modalità di fallimento nei modelli CLIP quantizzati, denominata Collasso della Rappresentazione Indotto dalla Quantizzazione (QIRC). Nel modello INT8 CLIP ViT-B/32, il rumore di attivazione si accumula attraverso i layer del trasformatore, riducendo l'allineamento del coseno durante il recupero zero-shot. Il rapporto rumore-segnale aumenta da meno del 10% nei layer iniziali al 52% nel Layer 11. Per affrontare questo problema, gli autori propongono LRA-EE (Uscita Anticipata Consapevole della Rappresentazione a Livello di Layer), che utilizza l'Aggregazione Spazio-Semantica, un gate appreso multi-caratteristica e una Soglia di Confidenza Adattiva al Layer per evitare i layer più profondi dominati dal rumore.

Fatti principali

  • 1. arXiv:2605.26415v1
  • 2. La quantizzazione INT8 introduce una modalità di fallimento in CLIP distinta dai classificatori CNN quantizzati
  • 3. Il rumore di attivazione perturba la direzione dell'embedding multimodale
  • 4. Viene caratterizzato il Collasso della Rappresentazione Indotto dalla Quantizzazione (QIRC)
  • 5. Il rapporto rumore-segnale cresce da meno del 10% al 52% al Layer 11 in INT8 CLIP ViT-B/32
  • 6. Viene proposto LRA-EE (Uscita Anticipata Consapevole della Rappresentazione a Livello di Layer)
  • 7. L'Aggregazione Spazio-Semantica sostituisce l'immature [CLS] superficiale con la media globale dei token patch
  • 8. Il gate appreso multi-caratteristica utilizza confidenza, margine top-2 e varianza di attivazione spaziale

Entità

Istituzioni

  • arXiv

Fonti