CRAFT: Nuova pipeline AI raggiunge le migliori prestazioni nel benchmark di video QA multimodale
Un team di ricercatori ha presentato CRAFT (Critic-Refined Adaptive Key-Frame Targeting), una pipeline sofisticata progettata per il question answering multi-video basato su eventi di cronaca reali. Questo sistema innovativo presenta selezione dinamica dei fotogrammi chiave, riconoscimento vocale automatico per ogni video con supporto multilingue e un ciclo critico ibrido che controlla e corregge continuamente le affermazioni prima di finalizzarle. Utilizza entailment temporale UNLI, DeBERTa-v3 per la valutazione incrociata delle affermazioni e un arbitro Llama-3.2-3B, culminando in un processo di fusione delle citazioni che presenta ogni fatto insieme ai suoi identificatori di fonte. CRAFT ha ottenuto un impressionante punteggio medio complessivo di 0,739, un reference recall di 0,810 e un citation F1 di 0,635 sul benchmark MAGMaR 2026, e ha eccelso anche in una valutazione WikiVideo in stile MAGMaR che coinvolge 52 query di eventi distinti. Questo lavoro affronta efficacemente la sfida di recuperare prove rilevanti da diversi archivi video, garantendo che ogni affermazione sia correttamente attribuita alla sua fonte.
Fatti principali
- 1. CRAFT sta per Critic-Refined Adaptive Key-Frame Targeting.
- 2. La pipeline combina selezione dinamica dei fotogrammi chiave, ASR con fallback multilingue e un ciclo critico ibrido.
- 3. Utilizza entailment temporale UNLI, screening incrociato delle affermazioni con DeBERTa-v3 e un arbitro Llama-3.2-3B.
- 4. La fase finale fonde le citazioni in modo che ogni fatto venga emesso una volta con tutti gli identificatori di fonte di supporto.
- 5. Su MAGMaR 2026, CRAFT ha ottenuto il miglior punteggio medio complessivo (0,739), reference recall (0,810) e citation F1 (0,635).
- 6. La valutazione ha incluso anche una conversione in stile MAGMaR di WikiVideo con 52 query di eventi non sovrapposte.
- 7. Il sistema è progettato per il question answering multi-video basato su eventi di cronaca reali.
- 8. L'articolo è pubblicato su arXiv con ID 2605.19075.
Entità
Istituzioni
- arXiv