UpstreamQA: Quadro Modulare per il Ragionamento Esplicito in VideoQA

other · 2026-04-29

UpstreamQA è un quadro modulare progettato per migliorare il Video Question Answering (VideoQA) rendendo esplicito il ragionamento. Gli attuali grandi modelli multimodali (LMM) eseguono un ragionamento multi-step in modo implicito, che è opaco. I grandi modelli di ragionamento (LRM) generano passaggi logici intermedi per l'interpretabilità, ma mancano di una comprensione video nativa, basandosi su fotogrammi statici. UpstreamQA utilizza LRM multimodali per l'identificazione degli oggetti e la generazione del contesto della scena, quindi passa tracce arricchite agli LMM a valle. È stato valutato sul benchmark OpenEQA. Il quadro separa le componenti fondamentali del ragionamento video, migliorando trasparenza e accuratezza. Il paper è disponibile su arXiv con ID 2604.23145.

Fatti principali

1. UpstreamQA è un quadro modulare per VideoQA.
2. Utilizza moduli di ragionamento upstream espliciti.
3. Gli attuali LMM eseguono il ragionamento in modo implicito.
4. Gli LRM generano passaggi logici intermedi.
5. Gli LRM non sono progettati per la comprensione video nativa.
6. UpstreamQA impiega LRM multimodali per l'identificazione degli oggetti.
7. Genera anche il contesto della scena.
8. Le tracce di ragionamento arricchite vengono passate agli LMM a valle.
9. Valutato su OpenEQA.
10. ID paper: arXiv:2604.23145.

UpstreamQA: Quadro Modulare per il Ragionamento Esplicito in VideoQA

Fatti principali

Entità

Istituzioni

Fonti