Il benchmark BRITE mette in luce le lacune dei modelli AI text-to-video
Un nuovo standard noto come BRITE (Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios) è stato lanciato per valutare i sistemi di generazione text-to-video (T2V). A differenza dei benchmark precedenti che ignorano situazioni implausibili e l'allineamento degli elementi audiovisivi, BRITE integra prompt implausibili, una valutazione dettagliata della coerenza audiovisiva e una valutazione interpretabile basata su QA. Utilizza un approccio human-in-the-loop per aumentare l'affidabilità, affrontando problemi di allucinazione e ambiguità nei framework automatizzati basati su LLM multimodali. Sono stati testati cinque modelli leader: Sora 2, Veo 3.1, Runway Gen4.5, Pixverse V5.5 e Qwen3Max. I risultati indicano un significativo divario di prestazioni, con modelli che performano bene nella composizione statica degli oggetti ma faticano nel legame oggetto-azione e nella sincronizzazione audiovisiva. Questo benchmark evidenzia l'urgente necessità di tecniche di valutazione moderne mentre l'evoluzione della generazione T2V fotorealistica procede rapidamente.
Fatti principali
- BRITE è il primo framework che unifica prompt implausibili, valutazione della coerenza audiovisiva e valutazione interpretabile basata su QA.
- Il benchmark utilizza un protocollo human-in-the-loop per l'affidabilità.
- Sono stati valutati cinque modelli: Sora 2, Veo 3.1, Runway Gen4.5, Pixverse V5.5 e Qwen3Max.
- I modelli eccellono nella composizione statica degli oggetti ma degradano nel legame oggetto-azione e nella sincronizzazione audiovisiva.
- I benchmark esistenti trascurano scenari implausibili e l'allineamento audiovisivo.
- Il benchmark affronta la necessità di metodi di valutazione aggiornati nella generazione T2V fotorealistica.
- Le pipeline automatizzate basate su LLM multimodali sono soggette ad allucinazioni e ambiguità nei prompt.
- BRITE sta per Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios.
Entità
Istituzioni
- arXiv