Circle-RoPE: Nuovo Posizionamento Posizionale per Modelli Visione-Linguaggio
Un nuovo articolo di ricerca presenta Circle-RoPE, un metodo innovativo per il posizionamento posizionale adattato ai grandi modelli visione-linguaggio (VLM). Questo studio affronta un inconveniente del Rotary Position Embedding (RoPE), che lega gli indici di posizione del testo e dell'immagine, portando a un involontario bias di posizione relativa cross-modale. I ricercatori introducono la Per-Token Distance (PTD) per misurare questo bias, dimostrando che quando PTD = 0, il bias di attenzione geometrica viene eliminato. Circle-RoPE riconfigura le coordinate 2D dei token immagine su un anello perpendicolare all'asse della posizione del testo, risultando in una struttura a cono in cui ogni token di testo mantiene la stessa distanza da tutti i token immagine, preservando al contempo l'organizzazione spaziale all'interno delle immagini. Inoltre, Alternating Geometry Encoding (AGE) integra Circle-RoPE con il RoPE standard attraverso diversi strati. L'articolo è disponibile su arXiv con ID 2505.16416.
Fatti principali
- Circle-RoPE è un nuovo posizionamento posizionale per VLM.
- Affronta il bias di posizione relativa cross-modale in RoPE.
- La Per-Token Distance (PTD) quantifica il disaccoppiamento posizionale.
- PTD = 0 è sufficiente per eliminare il bias di attenzione geometrica.
- Circle-RoPE rimappa i token immagine 2D su un anello.
- Alternating Geometry Encoding (AGE) combina Circle-RoPE e RoPE.
- L'articolo è su arXiv: 2505.16416.
- Il lavoro è stato realizzato da ricercatori (non nominati nella fonte).
Entità
Istituzioni
- arXiv