REALM: Un framework cross-modale allinea i dati delle telecamere ad eventi con i modelli foundation RGB

ai-technology · 2026-05-04

Un articolo di ricerca introduce REALM, un framework cross-modale che allinea i dati delle telecamere ad eventi con i modelli foundation RGB utilizzando l'adattamento a basso rango (LoRA). Le telecamere ad eventi offrono alta risoluzione temporale, bassa latenza e robustezza a condizioni di illuminazione estrema, ma gli approcci di apprendimento esistenti sono specifici per compito. REALM proietta le rappresentazioni degli eventi nello spazio latente pre-addestrato dei backbone ViT basati su RGB, consentendo compiti downstream come la stima della profondità e la segmentazione semantica senza training specifico per compito. Il metodo sfrutta i priori geometrici e semantici dei modelli RGB congelati per flussi di eventi asincroni. Pubblicato su arXiv (2605.00271).

Fatti principali

REALM sta per Varietà Latente Allineata RGB-Evento.
Le telecamere ad eventi forniscono alta risoluzione temporale, bassa latenza e robustezza a condizioni di illuminazione estrema.
Gli approcci esistenti per l'elaborazione degli eventi sono specifici per compito e mancano di generalizzazione cross-modale.
REALM utilizza l'adattamento a basso rango (LoRA) per colmare il divario modale.
Il framework proietta le rappresentazioni degli eventi nello spazio latente dei modelli foundation RGB.
REALM mappa gli eventi in uno spazio latente foundation basato su ViT.
I compiti downstream includono la stima della profondità e la segmentazione semantica.
L'articolo è disponibile su arXiv con ID 2605.00271.

REALM: Un framework cross-modale allinea i dati delle telecamere ad eventi con i modelli foundation RGB

Fatti principali

Entità

Istituzioni

Fonti