EntityBench: Benchmark per la generazione video multi-inquadratura coerente
EntityBench è stato lanciato da ricercatori come benchmark volto a valutare i sistemi di generazione video multi-inquadratura per quanto riguarda la loro capacità di mantenere personaggi, oggetti e ambientazioni coerenti su sequenze estese. Questo benchmark presenta 140 episodi, composti da 2.491 inquadrature tratte da media narrativi reali, con dettagliati programmi entità per inquadratura categorizzati in livelli facile, medio e difficile. Ogni episodio può includere fino a 50 inquadrature, 13 personaggi, 8 luoghi e 22 oggetti, con intervalli fino a 48 inquadrature per la ricomparsa. Ad accompagnare EntityBench c'è una suite di valutazione completa che analizza la qualità intra-inquadratura, l'allineamento con i prompt e la coerenza tra le inquadrature, inclusa una soglia di fedeltà per la rappresentazione precisa delle entità. Questa iniziativa affronta il problema dei confronti standardizzati nella generazione video multi-inquadratura, dove le valutazioni attuali spesso si basano su una copertura limitata delle entità e metriche di coerenza di base.
Fatti principali
- EntityBench è un benchmark per la generazione video multi-inquadratura.
- Include 140 episodi e 2.491 inquadrature.
- Gli episodi sono tratti da media narrativi reali.
- I programmi entità per inquadratura tracciano personaggi, oggetti e luoghi.
- Tre livelli di difficoltà: facile, medio, difficile.
- Fino a 50 inquadrature per episodio.
- Fino a 13 personaggi tra le inquadrature, 8 luoghi, 22 oggetti.
- Intervalli di ricomparsa fino a 48 inquadrature.
- La suite di valutazione ha tre pilastri: qualità intra-inquadratura, allineamento con il prompt, coerenza tra le inquadrature.
- Include una soglia di fedeltà per la rappresentazione accurata delle entità.
Entità
—