PRISM Benchmark Testa i Modelli Linguistici sulla Generazione Video Spazio-Temporale
Un nuovo benchmark chiamato PRISM è stato sviluppato da ricercatori per valutare la capacità dei modelli linguistici di generare output animati coerenti sia spazialmente che temporalmente attraverso la codifica. Questo benchmark presenta 10.372 coppie istruzione-codice calibrate da umani, rendendolo 20 volte più grande dei precedenti benchmark per la generazione video programmatica. Si basa su scenari di visualizzazione della conoscenza del mondo reale sia in inglese che in cinese, coprendo 437 categorie tematiche. PRISM utilizza un quadro di valutazione a imbuto con quattro metriche chiave: Affidabilità a Livello di Codice, Ragionamento Spaziale, Complessità Visiva Dinamica Consapevole del Prompt (PADVC) e Densità Temporale (TD). Una valutazione di sette LLM leader ha evidenziato un notevole divario nell'esecuzione e nel ragionamento spaziale, rivelando che, sebbene i modelli possano creare codice eseguibile, spesso faticano a produrre animazioni spazialmente accurate. Questo benchmark mira a valutare rigorosamente la capacità dei modelli linguistici di generare output animati spazialmente corretti, essenziali per ottenere precisione geometrica e coerenza temporale nella generazione video programmatica oltre i modelli di diffusione a livello di pixel.
Fatti principali
- PRISM è un benchmark per il ragionamento spazio-temporale programmatico.
- Contiene 10.372 coppie istruzione-codice calibrate da umani.
- Il benchmark è 20 volte più grande dei precedenti benchmark per la generazione video programmatica.
- Copre inglese e cinese in 437 categorie tematiche.
- Il quadro di valutazione include quattro metriche: Affidabilità a Livello di Codice, Ragionamento Spaziale, PADVC e TD.
- Sette LLM mainstream sono stati valutati sistematicamente.
- È stato trovato un significativo divario tra esecuzione e ragionamento spaziale.
- Il benchmark è basato su scenari di visualizzazione della conoscenza del mondo reale.
Entità
—