Spazio di Rotazione RoPE come Dimensione Apprendibile nei Meccanismi di Attenzione
Un nuovo articolo su arXiv (2604.24717) propone di trattare la varietà di rotazione delle Rotary Positional Embeddings (RoPE) come uno spazio apprendibile e condizionato dal segnale, analogamente all'introduzione di un asse immaginario nei numeri complessi. Gli autori sostengono che le attuali architetture Transformer utilizzano RoPE come una struttura fissa e artigianale con indici ordinali discreti, trascurando una seconda dimensione di espressività nell'attenzione. Rendendo apprendibile la varietà di rotazione, l'approccio mira a sbloccare un grado di libertà ortogonale, dove gli embedding dei token codificano componenti semantiche (reali) e le rotazioni codificano informazioni temporali o relazionali. L'articolo suggerisce che ciò potrebbe aprire nuove porte per le architetture basate sull'attenzione.
Fatti principali
- L'articolo arXiv:2604.24717 propone una varietà di rotazione apprendibile per RoPE.
- L'attuale RoPE è fissa e artigianale con indici discreti.
- Analogia con i numeri complessi: asse immaginario come dimensione ortogonale.
- Gli embedding dei token codificano la componente semantica (reale).
- La varietà di rotazione è trattata come uno spazio condizionato dal segnale.
- Mira a sbloccare un grado di libertà ortogonale nell'attenzione.
- Pubblicato come preprint arXiv il 26 aprile 2025.
- Gli autori sostengono che lo spazio di rotazione è una dimensione di espressività trascurata.
Entità
Istituzioni
- arXiv