Strategia di Selezione dei Token per una Ricostruzione 3D Efficiente

ai-technology · 2026-05-25

Un nuovo metodo riduce il costo computazionale nei trasformatori geometrici visivi per la ricostruzione 3D multi-vista. L'approccio utilizza un framework di selezione dei token a due stadi: la selezione inter-frame identifica i fotogrammi chiave tramite una strategia basata sulla diversità, quindi la selezione intra-frame scarta i token ridondanti all'interno di tali fotogrammi. Ciò limita il numero di token chiave/valore con cui ogni query interagisce durante l'attenzione globale, affrontando la crescita quadratica del costo con la lunghezza della sequenza di input. Il lavoro è pubblicato su arXiv (2605.23892) e mira a migliorare la scalabilità e l'efficienza della previsione feed-forward degli attributi 3D.

Fatti principali

I trasformatori geometrici visivi consentono la previsione congiunta di più attributi 3D in modo feed-forward.
Il costo computazionale cresce quadraticamente con la lunghezza della sequenza di input a causa dei livelli di attenzione globale.
La strategia proposta restringe i token chiave/valore per query durante l'attenzione globale.
Framework a due stadi: selezione inter-frame a livello di fotogramma, selezione intra-frame all'interno dei fotogrammi selezionati.
La selezione inter-frame utilizza una strategia basata sulla diversità per garantire un'ampia copertura.
La selezione intra-frame scarta i token ridondanti all'interno dei fotogrammi selezionati.
Pubblicato su arXiv con identificatore 2605.23892.
Mira a migliorare la scalabilità e l'efficienza della ricostruzione 3D multi-vista.

Strategia di Selezione dei Token per una Ricostruzione 3D Efficiente

Fatti principali

Entità

Istituzioni

Fonti