ARTFEED — Contemporary Art Intelligence

La codifica posizionale ellittica di Weierstrass migliora i Vision Transformers

other · 2026-05-25

Un recente preprint su arXiv (2605.23719) presenta la codifica posizionale ellittica di Weierstrass (WePE) progettata per i Vision Transformers (ViT). I ViT tradizionali si basano su codifiche posizionali apprendibili unidimensionali, che non mantengono efficacemente la disposizione spaziale bidimensionale delle immagini una volta appiattiti i patch. WePE risolve questo problema proiettando le coordinate 2D normalizzate dei patch sul piano complesso e creando caratteristiche posizionali quadridimensionali compatte basate sulla funzione ellittica di Weierstrass e la sua derivata. La doppia periodicità della funzione offre una rappresentazione sistematica delle posizioni 2D, garantendo una relazione coerente tra le distanze spaziali euclidee e le distanze degli indici sequenziali. Questo approccio matematicamente solido mira a migliorare la capacità dei ViT di utilizzare i priori di prossimità spaziale, una caratteristica spesso assente nelle codifiche attuali a causa di vincoli geometrici inadeguati.

Fatti principali

  • Il preprint arXiv 2605.23719 propone la codifica posizionale ellittica di Weierstrass (WePE) per i Vision Transformers.
  • Gli attuali ViT utilizzano codifiche posizionali apprendibili unidimensionali che indeboliscono la struttura spaziale 2D.
  • WePE mappa le coordinate 2D normalizzate dei patch sul piano complesso.
  • WePE costruisce caratteristiche posizionali quadridimensionali usando la funzione ellittica di Weierstrass e la sua derivata.
  • La doppia periodicità fornisce una rappresentazione sistematica delle posizioni 2D.
  • WePE mantiene una relazione monotona tra le distanze euclidee e le distanze degli indici sequenziali.
  • Le codifiche posizionali esistenti mancano di vincoli geometrici e priori di prossimità spaziale.
  • Il metodo è matematicamente fondato e motivato dalla periodicità nella codifica posizionale.

Entità

Istituzioni

  • arXiv

Fonti