ARTFEED — Contemporary Art Intelligence

Gli spazi latenti dei VLM contengono 164 dimensioni di rumore non semantico

publication · 2026-05-16

Un nuovo preprint su arXiv (2605.14893) rivela che i modelli linguistico-visivi (VLM) preaddestrati in modo contrastivo, come CLIP, ospitano un rumore non semantico significativo nei loro spazi latenti condivisi. I ricercatori hanno applicato la decomposizione spettrale alle matrici di covarianza, separando i segnali semantici multimodali da un sottospazio di rumore condiviso. Hanno scoperto che questa geometria del rumore mostra una forte invarianza di sottogruppo attraverso diversi sottoinsiemi di dati. Potare queste dimensioni di rumore è in gran parte innocuo e può persino migliorare le prestazioni nei compiti downstream. Lo studio suggerisce che una frazione sostanziale della geometria latente dei VLM è governata dal rumore a livello di architettura piuttosto che dalla semantica rilevante per il compito, offrendo nuove intuizioni meccanicistiche sulla struttura rappresentazionale.

Fatti principali

  • arXiv:2605.14893
  • I VLM preaddestrati in modo contrastivo presentano anomalie strutturali negli spazi latenti
  • Decomposizione spettrale delle matrici di covarianza utilizzata
  • La geometria del rumore mostra una forte invarianza di sottogruppo
  • Potare le dimensioni di rumore preserva o migliora le prestazioni
  • Il rumore è a livello di architettura, non semantica rilevante per il compito
  • Identificate 164 dimensioni di rumore in CLIP
  • Nuove intuizioni meccanicistiche sulle rappresentazioni dei VLM

Entità

Istituzioni

  • arXiv

Fonti