AVBench: Nuovo Benchmark per la Valutazione della Generazione Audio-Video incentrata sull'Uomo
I ricercatori hanno introdotto AVBench, un benchmark completamente automatizzato progettato per valutare i modelli di generazione audio-video (AV) incentrati sull'uomo. Il benchmark affronta le limitazioni delle valutazioni esistenti, che si basano su metriche grossolane e LLM multimodali generici, portando a valutazioni inaccurate. AVBench integra dieci dimensioni di valutazione che coprono la qualità visiva, la qualità audio e la coerenza a più livelli tra le modalità, specificamente adattate per scenari umani come il parlato e le interazioni. Il benchmark mira a fornire una valutazione completa e accurata dei modelli di generazione AV, concentrandosi sui dettagli incentrati sull'uomo spesso trascurati dai benchmark attuali. Il lavoro è descritto nell'articolo arXiv 2605.24652v1.
Fatti principali
- AVBench è un benchmark completamente automatizzato per la valutazione della generazione AV incentrata sull'uomo.
- Affronta le limitazioni dei benchmark grossolani esistenti e delle valutazioni generiche con LLM multimodali.
- Il benchmark integra dieci dimensioni di valutazione per qualità visiva, qualità audio e coerenza a più livelli.
- Si concentra su scenari umani, inclusi parlato e interazioni.
- Il lavoro è presentato nell'articolo arXiv 2605.24652v1.
- AVBench mira a fornire valutazioni accurate delle capacità del modello.
- I benchmark esistenti spesso trascurano i dettagli legati all'uomo.
- Il benchmark è progettato per scenari reali incentrati sull'uomo.
Entità
Istituzioni
- arXiv