Circle-RoPE: Nuovo Posizionamento Posizionale per Modelli Visione-Linguaggio

ai-technology · 2026-05-23

Un nuovo articolo di ricerca presenta Circle-RoPE, un metodo innovativo per il posizionamento posizionale adattato ai grandi modelli visione-linguaggio (VLM). Questo studio affronta un inconveniente del Rotary Position Embedding (RoPE), che lega gli indici di posizione del testo e dell'immagine, portando a un involontario bias di posizione relativa cross-modale. I ricercatori introducono la Per-Token Distance (PTD) per misurare questo bias, dimostrando che quando PTD = 0, il bias di attenzione geometrica viene eliminato. Circle-RoPE riconfigura le coordinate 2D dei token immagine su un anello perpendicolare all'asse della posizione del testo, risultando in una struttura a cono in cui ogni token di testo mantiene la stessa distanza da tutti i token immagine, preservando al contempo l'organizzazione spaziale all'interno delle immagini. Inoltre, Alternating Geometry Encoding (AGE) integra Circle-RoPE con il RoPE standard attraverso diversi strati. L'articolo è disponibile su arXiv con ID 2505.16416.

Fatti principali

Circle-RoPE è un nuovo posizionamento posizionale per VLM.
Affronta il bias di posizione relativa cross-modale in RoPE.
La Per-Token Distance (PTD) quantifica il disaccoppiamento posizionale.
PTD = 0 è sufficiente per eliminare il bias di attenzione geometrica.
Circle-RoPE rimappa i token immagine 2D su un anello.
Alternating Geometry Encoding (AGE) combina Circle-RoPE e RoPE.
L'articolo è su arXiv: 2505.16416.
Il lavoro è stato realizzato da ricercatori (non nominati nella fonte).

Circle-RoPE: Nuovo Posizionamento Posizionale per Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti