VideoTemp-o3: Framework AI per la Comprensione di Video Lunghi
I ricercatori propongono VideoTemp-o3, un framework agente unificato per la comprensione di video lunghi che modella congiuntamente il grounding video e il question answering. Affronta le inefficienze dei metodi esistenti offrendo una forte localizzazione, clipping su richiesta e raffinamento di localizzazioni inaccurate. Il framework utilizza una fase di supervised fine-tuning con un meccanismo di mascheramento unificato per incoraggiare l'esplorazione. Questo lavoro è pubblicato su arXiv con ID 2602.07801.
Fatti principali
- VideoTemp-o3 è un framework agente unificato per pensare con i video.
- Modella congiuntamente il grounding video e il question answering.
- Mostra una forte capacità di localizzazione.
- Supporta il clipping su richiesta.
- Può raffinare localizzazioni inaccurate.
- La fase di supervised fine-tuning utilizza un meccanismo di mascheramento unificato.
- L'articolo è su arXiv con ID 2602.07801.
- Affronta le inefficienze dei paradigmi esistenti per pensare con i video.
Entità
Istituzioni
- arXiv