SAVEMem: Memoria Semantica per Video in Streaming

other · 2026-05-11

È stato introdotto un nuovo framework, SAVEMem (Memoria Visiva Adattiva Semantica), per affrontare il problema della gestione della memoria nel campo della comprensione di video in streaming online. Questo sistema elabora in modo efficiente i dati visivi continui e fornisce risposte in tempo reale alle richieste degli utenti. A differenza degli approcci attuali che si basano su euristiche di similarità visiva per la compressione dei token o migliorano la compressione tramite recupero a livello di KV-cache, SAVEMem utilizza segnali semantici per la creazione della memoria e adatta l'ambito di recupero in base a ciascuna query. Nella sua prima fase, stabilisce una memoria di streaming a tre livelli all'interno di un budget di memoria fisso, utilizzando un banco di pseudo-domande per fornire una base semantica leggera, consentendo una conservazione a lungo termine influenzata dall'importanza semantica piuttosto che dalla similarità visiva. Questo framework è in grado di gestire flussi illimitati e tempistiche di query imprevedibili senza necessità di addestramento. La ricerca è disponibile su arXiv con ID 2605.07897.

Fatti principali

SAVEMem è un framework dual-stage senza addestramento per la comprensione di video in streaming.
Introduce la consapevolezza semantica nella generazione della memoria.
L'ambito di recupero si adatta per ogni query.
La Fase 1 costruisce una memoria di streaming a tre livelli con budget costante.
Un banco fisso di pseudo-domande fornisce un prior semantico.
La conservazione a lungo termine è modellata dalla salienza semantica.
I metodi esistenti usano euristiche di similarità visiva o recupero a livello di KV-cache.
ID articolo: arXiv:2605.07897.

SAVEMem: Memoria Semantica per Video in Streaming

Fatti principali

Entità

Istituzioni

Fonti