La codifica posizionale ellittica di Weierstrass migliora i Vision Transformers
Un recente preprint su arXiv (2605.23719) presenta la codifica posizionale ellittica di Weierstrass (WePE) progettata per i Vision Transformers (ViT). I ViT tradizionali si basano su codifiche posizionali apprendibili unidimensionali, che non mantengono efficacemente la disposizione spaziale bidimensionale delle immagini una volta appiattiti i patch. WePE risolve questo problema proiettando le coordinate 2D normalizzate dei patch sul piano complesso e creando caratteristiche posizionali quadridimensionali compatte basate sulla funzione ellittica di Weierstrass e la sua derivata. La doppia periodicità della funzione offre una rappresentazione sistematica delle posizioni 2D, garantendo una relazione coerente tra le distanze spaziali euclidee e le distanze degli indici sequenziali. Questo approccio matematicamente solido mira a migliorare la capacità dei ViT di utilizzare i priori di prossimità spaziale, una caratteristica spesso assente nelle codifiche attuali a causa di vincoli geometrici inadeguati.
Fatti principali
- Il preprint arXiv 2605.23719 propone la codifica posizionale ellittica di Weierstrass (WePE) per i Vision Transformers.
- Gli attuali ViT utilizzano codifiche posizionali apprendibili unidimensionali che indeboliscono la struttura spaziale 2D.
- WePE mappa le coordinate 2D normalizzate dei patch sul piano complesso.
- WePE costruisce caratteristiche posizionali quadridimensionali usando la funzione ellittica di Weierstrass e la sua derivata.
- La doppia periodicità fornisce una rappresentazione sistematica delle posizioni 2D.
- WePE mantiene una relazione monotona tra le distanze euclidee e le distanze degli indici sequenziali.
- Le codifiche posizionali esistenti mancano di vincoli geometrici e priori di prossimità spaziale.
- Il metodo è matematicamente fondato e motivato dalla periodicità nella codifica posizionale.
Entità
Istituzioni
- arXiv