Response-G1: Modellazione Esplicita di Grafi di Scena per la Comprensione Proattiva dei Video
È stato lanciato un nuovo framework chiamato Response-G1 per migliorare la comprensione proattiva dei video in streaming, consentendo ai Video-LLM di determinare i momenti appropriati per reagire man mano che il video procede. Questo approccio, descritto in un articolo su arXiv (2605.07575), impiega un allineamento chiaro e strutturato tra i dati video raccolti e i parametri della query attraverso grafi di scena. Funziona in tre fasi senza fine-tuning: generazione di grafi di scena da clip in streaming guidati dalla query, recupero di grafi di scena storici rilevanti dalla memoria e utilizzo di prompt potenziati dal recupero per prendere decisioni di silenzio o risposta su base per-frame. Ancorando sia le evidenze che le condizioni in una rappresentazione grafica unificata, Response-G1 fornisce una tempistica di risposta più precisa e interpretabile. Le valutazioni sperimentali su benchmark standard dimostrano i suoi vantaggi rispetto alle attuali tecniche implicite e indipendenti dalla query.
Fatti principali
- Response-G1 è un framework per la comprensione proattiva dei video in streaming.
- Utilizza la modellazione esplicita di grafi di scena per l'allineamento tra evidenze video e condizioni della query.
- Il framework opera in tre fasi senza fine-tuning.
- Le fasi includono generazione online di grafi di scena, recupero basato su memoria e prompting di trigger.
- Consente decisioni di silenzio/risposta per frame.
- L'approccio è più interpretabile e accurato rispetto ai metodi esistenti.
- I risultati sperimentali su benchmark dimostrano la superiorità.
- L'articolo è disponibile su arXiv con ID 2605.07575.
Entità
Istituzioni
- arXiv