UpstreamQA: Quadro Modulare per il Ragionamento Esplicito in VideoQA
UpstreamQA è un quadro modulare progettato per migliorare il Video Question Answering (VideoQA) rendendo esplicito il ragionamento. Gli attuali grandi modelli multimodali (LMM) eseguono un ragionamento multi-step in modo implicito, che è opaco. I grandi modelli di ragionamento (LRM) generano passaggi logici intermedi per l'interpretabilità, ma mancano di una comprensione video nativa, basandosi su fotogrammi statici. UpstreamQA utilizza LRM multimodali per l'identificazione degli oggetti e la generazione del contesto della scena, quindi passa tracce arricchite agli LMM a valle. È stato valutato sul benchmark OpenEQA. Il quadro separa le componenti fondamentali del ragionamento video, migliorando trasparenza e accuratezza. Il paper è disponibile su arXiv con ID 2604.23145.
Fatti principali
- 1. UpstreamQA è un quadro modulare per VideoQA.
- 2. Utilizza moduli di ragionamento upstream espliciti.
- 3. Gli attuali LMM eseguono il ragionamento in modo implicito.
- 4. Gli LRM generano passaggi logici intermedi.
- 5. Gli LRM non sono progettati per la comprensione video nativa.
- 6. UpstreamQA impiega LRM multimodali per l'identificazione degli oggetti.
- 7. Genera anche il contesto della scena.
- 8. Le tracce di ragionamento arricchite vengono passate agli LMM a valle.
- 9. Valutato su OpenEQA.
- 10. ID paper: arXiv:2604.23145.
Entità
Istituzioni
- arXiv