Clark Hash: Compressione Efficiente di Embedding Neurali tramite Proiezione Sparsa

ai-technology · 2026-05-28

Una tecnica innovativa denominata Clark Hash raggiunge una compressione 32x degli embedding neurali senza necessità di addestramento. Questo approccio normalizza i vettori, utilizza una proiezione deterministica sparsa con segno di Johnson-Lindenstrauss, taglia l'output e salva codici quantizzati scalari. Nella configurazione standard di embedding di frasi a 384 dimensioni, riduce l'archiviazione da 1536 byte (f32 denso) a soli 48 byte. Il metodo non richiede passaggi di addestramento, codebook appresi, rotazioni o statistiche del corpus. Le query vengono mantenute in virgola mobile e valutate rispetto agli schizzi memorizzati. Una valutazione della similarità di frasi multilingue su 9.304 coppie etichettate da 29 sottoinsiemi, utilizzando un encoder MiniLM multilingue, ha ottenuto correlazioni di Pearson macro di 0,910 e 0,946 con punteggi coseno densi su STS17 e STS22. L'articolo descrive in dettaglio il codec e include un'implementazione in Rust.

Fatti principali

Clark Hash comprime gli embedding neurali di 32x.
Embedding predefiniti a 384 dimensioni archiviati in 48 byte contro 1536 byte.
Nessun passaggio di addestramento o codebook appresi richiesti.
Utilizza una proiezione deterministica sparsa con segno di Johnson-Lindenstrauss.
Valutato su 9.304 coppie etichettate da 29 sottoinsiemi.
Encoder MiniLM multilingue utilizzato nella valutazione.
Raggiunto 0,910 di Pearson macro su STS17.
Raggiunto 0,946 di Pearson macro su STS22.

Entità

—

Fonti

arXiv cs.AI — 2026-05-28