OSCBench Introduce un Nuovo Benchmark per il Cambiamento di Stato degli Oggetti nei Modelli AI Testo-Video
Un nuovo benchmark denominato OSCBench è stato creato per valutare i cambiamenti di stato degli oggetti nei modelli di generazione testo-video, colmando una lacuna significativa nelle valutazioni attuali. I cambiamenti di stato degli oggetti includono azioni come sbucciare una patata o tagliare un limone, che sono chiaramente articolate nei prompt testuali. Questo benchmark utilizza dati di cucina istruzionali, classificando le interazioni azione-oggetto in scenari regolari, nuovi e compositivi per valutare sia le prestazioni in-distribuzione che la generalizzazione. Sono stati condotti studi con utenti umani su sei modelli T2V rappresentativi open-source e proprietari. I benchmark precedenti si sono concentrati principalmente sulla qualità percettiva, l'allineamento testo-video o la plausibilità fisica, trascurando la comprensione delle azioni. Il documento che descrive OSCBench è disponibile su arXiv con l'identificatore arXiv:2603.11698v2, classificato come replace-cross.
Fatti principali
- OSCBench è un benchmark per valutare il cambiamento di stato degli oggetti nei modelli di generazione testo-video.
- Il cambiamento di stato degli oggetti coinvolge trasformazioni come sbucciare una patata o tagliare un limone.
- Il benchmark utilizza dati di cucina istruzionali per la sua costruzione.
- Le interazioni azione-oggetto sono organizzate in scenari regolari, nuovi e compositivi.
- Sei modelli T2V open-source e proprietari sono valutati con studi su utenti umani.
- I benchmark esistenti si concentrano sulla qualità percettiva, l'allineamento testo-video o la plausibilità fisica.
- Il documento è disponibile su arXiv con l'identificatore arXiv:2603.11698v2.
- I modelli testo-video hanno fatto rapidi progressi nella qualità visiva e nella coerenza temporale.
Entità
Istituzioni
- arXiv