Response-G1: Modellazione Esplicita di Grafi di Scena per la Comprensione Proattiva dei Video

digital · 2026-05-11

È stato lanciato un nuovo framework chiamato Response-G1 per migliorare la comprensione proattiva dei video in streaming, consentendo ai Video-LLM di determinare i momenti appropriati per reagire man mano che il video procede. Questo approccio, descritto in un articolo su arXiv (2605.07575), impiega un allineamento chiaro e strutturato tra i dati video raccolti e i parametri della query attraverso grafi di scena. Funziona in tre fasi senza fine-tuning: generazione di grafi di scena da clip in streaming guidati dalla query, recupero di grafi di scena storici rilevanti dalla memoria e utilizzo di prompt potenziati dal recupero per prendere decisioni di silenzio o risposta su base per-frame. Ancorando sia le evidenze che le condizioni in una rappresentazione grafica unificata, Response-G1 fornisce una tempistica di risposta più precisa e interpretabile. Le valutazioni sperimentali su benchmark standard dimostrano i suoi vantaggi rispetto alle attuali tecniche implicite e indipendenti dalla query.

Fatti principali

Response-G1 è un framework per la comprensione proattiva dei video in streaming.
Utilizza la modellazione esplicita di grafi di scena per l'allineamento tra evidenze video e condizioni della query.
Il framework opera in tre fasi senza fine-tuning.
Le fasi includono generazione online di grafi di scena, recupero basato su memoria e prompting di trigger.
Consente decisioni di silenzio/risposta per frame.
L'approccio è più interpretabile e accurato rispetto ai metodi esistenti.
I risultati sperimentali su benchmark dimostrano la superiorità.
L'articolo è disponibile su arXiv con ID 2605.07575.

Response-G1: Modellazione Esplicita di Grafi di Scena per la Comprensione Proattiva dei Video

Fatti principali

Entità

Istituzioni

Fonti