Gli spazi latenti dei VLM contengono 164 dimensioni di rumore non semantico

publication · 2026-05-16

Un nuovo preprint su arXiv (2605.14893) rivela che i modelli linguistico-visivi (VLM) preaddestrati in modo contrastivo, come CLIP, ospitano un rumore non semantico significativo nei loro spazi latenti condivisi. I ricercatori hanno applicato la decomposizione spettrale alle matrici di covarianza, separando i segnali semantici multimodali da un sottospazio di rumore condiviso. Hanno scoperto che questa geometria del rumore mostra una forte invarianza di sottogruppo attraverso diversi sottoinsiemi di dati. Potare queste dimensioni di rumore è in gran parte innocuo e può persino migliorare le prestazioni nei compiti downstream. Lo studio suggerisce che una frazione sostanziale della geometria latente dei VLM è governata dal rumore a livello di architettura piuttosto che dalla semantica rilevante per il compito, offrendo nuove intuizioni meccanicistiche sulla struttura rappresentazionale.

Fatti principali

arXiv:2605.14893
I VLM preaddestrati in modo contrastivo presentano anomalie strutturali negli spazi latenti
Decomposizione spettrale delle matrici di covarianza utilizzata
La geometria del rumore mostra una forte invarianza di sottogruppo
Potare le dimensioni di rumore preserva o migliora le prestazioni
Il rumore è a livello di architettura, non semantica rilevante per il compito
Identificate 164 dimensioni di rumore in CLIP
Nuove intuizioni meccanicistiche sulle rappresentazioni dei VLM

Gli spazi latenti dei VLM contengono 164 dimensioni di rumore non semantico

Fatti principali

Entità

Istituzioni

Fonti