ARTFEED — Contemporary Art Intelligence

REALM: Un framework cross-modale allinea i dati delle telecamere ad eventi con i modelli foundation RGB

ai-technology · 2026-05-04

Un articolo di ricerca introduce REALM, un framework cross-modale che allinea i dati delle telecamere ad eventi con i modelli foundation RGB utilizzando l'adattamento a basso rango (LoRA). Le telecamere ad eventi offrono alta risoluzione temporale, bassa latenza e robustezza a condizioni di illuminazione estrema, ma gli approcci di apprendimento esistenti sono specifici per compito. REALM proietta le rappresentazioni degli eventi nello spazio latente pre-addestrato dei backbone ViT basati su RGB, consentendo compiti downstream come la stima della profondità e la segmentazione semantica senza training specifico per compito. Il metodo sfrutta i priori geometrici e semantici dei modelli RGB congelati per flussi di eventi asincroni. Pubblicato su arXiv (2605.00271).

Fatti principali

  • REALM sta per Varietà Latente Allineata RGB-Evento.
  • Le telecamere ad eventi forniscono alta risoluzione temporale, bassa latenza e robustezza a condizioni di illuminazione estrema.
  • Gli approcci esistenti per l'elaborazione degli eventi sono specifici per compito e mancano di generalizzazione cross-modale.
  • REALM utilizza l'adattamento a basso rango (LoRA) per colmare il divario modale.
  • Il framework proietta le rappresentazioni degli eventi nello spazio latente dei modelli foundation RGB.
  • REALM mappa gli eventi in uno spazio latente foundation basato su ViT.
  • I compiti downstream includono la stima della profondità e la segmentazione semantica.
  • L'articolo è disponibile su arXiv con ID 2605.00271.

Entità

Istituzioni

  • arXiv

Fonti