HY-Himmel: Codifica Video Gerarchica per la Comprensione di Video Lunghi

other · 2026-05-12

Il nuovo framework gerarchico video-linguistico, HY-Himmel, affronta le sfide nella comprensione di video lunghi utilizzando modelli linguistici multimodali. Questo sistema innovativo distingue tra elaborazione semantica e analisi del movimento: i frame I di ancoraggio sparsi vengono inviati a un Vision Transformer (ViT) per identificare oggetti e layout di scena, mentre un adattatore leggero a tre flussi nel dominio compresso codifica i densi intervalli tra i frame. Questo adattatore raccoglie informazioni sul movimento da mappe vettoriali di movimento, mappe residue e contesto del frame I per creare token di movimento allineati. Dopo l'allineamento contrastivo di Fase 1, questi token vengono introdotti nell'LLM attraverso un meccanismo placeholder differenziabile, mantenendo la compatibilità con il backbone visivo statico. Questo metodo migliora la percezione del movimento e minimizza i costi di decodifica e l'espansione dei token. Il rapporto tecnico è disponibile su arXiv con l'identificatore 2605.08158.

Fatti principali

HY-Himmel è un framework video-linguistico gerarchico per la comprensione di video lunghi.
Utilizza frame I di ancoraggio sparsi per l'identità degli oggetti e il layout di scena tramite un ViT host.
I densi intervalli tra i frame sono codificati da un adattatore leggero a tre flussi nel dominio compresso.
L'adattatore elabora mappe vettoriali di movimento, mappe residue e contesto del frame I.
I token di movimento vengono iniettati nell'LLM tramite un meccanismo placeholder differenziabile.
L'allineamento contrastivo di Fase 1 garantisce la compatibilità con il backbone visivo congelato.
Il sistema affronta i costi di decodifica, la crescita quadratica dei token e la debole percezione del movimento.
Il rapporto tecnico è pubblicato su arXiv con l'identificatore 2605.08158.

HY-Himmel: Codifica Video Gerarchica per la Comprensione di Video Lunghi

Fatti principali

Entità

Istituzioni

Fonti