MTAVG-Bench 2.0: Benchmark per l'espressività cinematografica nella generazione video multi-parlante
I ricercatori hanno introdotto MTAVG-Bench 2.0, un benchmark progettato per diagnosticare le modalità di fallimento dell'espressività cinematografica nei modelli di generazione audio-video multi-parlante (MTAVG). Mentre i modelli attuali ottengono buoni risultati su metriche di base come il sincronismo labiale e l'allineamento audio-visivo, queste sono insufficienti per valutare qualità cinematografiche di livello superiore in scene con più personaggi. Il nuovo benchmark si concentra sulla generazione a livello di breve dramma e scena, stabilendo una tassonomia dei fallimenti che copre recitazione, narrativa, atmosfera e linguaggio audio-visivo. Include oltre 10.000 istanze di valutazione basate su domande e risposte. Il lavoro è pubblicato su arXiv con identificativo 2605.28035.
Fatti principali
- MTAVG-Bench 2.0 è un nuovo benchmark per l'espressività cinematografica nella generazione audio-video multi-parlante.
- I modelli attuali mostrano prestazioni promettenti su metriche fondamentali come il sincronismo labiale e l'allineamento audio-visivo.
- Le metriche esistenti sono insufficienti per valutare l'espressività cinematografica nella generazione a livello di scena.
- Il benchmark si concentra sulla generazione a livello di breve dramma e scena.
- Stabilisce una tassonomia dei fallimenti di alto livello che copre recitazione, narrativa, atmosfera e linguaggio audio-visivo.
- Il benchmark include più di 10.000 istanze di valutazione basate su domande e risposte.
- Il lavoro è pubblicato su arXiv con identificativo 2605.28035.
- Il benchmark diagnostica le modalità di fallimento dell'espressività cinematografica.
Entità
Istituzioni
- arXiv