ARTFEED — Contemporary Art Intelligence

UpstreamQA: Quadro Modulare per il Ragionamento Esplicito in VideoQA

other · 2026-04-29

UpstreamQA è un quadro modulare progettato per migliorare il Video Question Answering (VideoQA) rendendo esplicito il ragionamento. Gli attuali grandi modelli multimodali (LMM) eseguono un ragionamento multi-step in modo implicito, che è opaco. I grandi modelli di ragionamento (LRM) generano passaggi logici intermedi per l'interpretabilità, ma mancano di una comprensione video nativa, basandosi su fotogrammi statici. UpstreamQA utilizza LRM multimodali per l'identificazione degli oggetti e la generazione del contesto della scena, quindi passa tracce arricchite agli LMM a valle. È stato valutato sul benchmark OpenEQA. Il quadro separa le componenti fondamentali del ragionamento video, migliorando trasparenza e accuratezza. Il paper è disponibile su arXiv con ID 2604.23145.

Fatti principali

  • 1. UpstreamQA è un quadro modulare per VideoQA.
  • 2. Utilizza moduli di ragionamento upstream espliciti.
  • 3. Gli attuali LMM eseguono il ragionamento in modo implicito.
  • 4. Gli LRM generano passaggi logici intermedi.
  • 5. Gli LRM non sono progettati per la comprensione video nativa.
  • 6. UpstreamQA impiega LRM multimodali per l'identificazione degli oggetti.
  • 7. Genera anche il contesto della scena.
  • 8. Le tracce di ragionamento arricchite vengono passate agli LMM a valle.
  • 9. Valutato su OpenEQA.
  • 10. ID paper: arXiv:2604.23145.

Entità

Istituzioni

  • arXiv

Fonti