PDI-Bench: Un Quadro Quantitativo per la Coerenza Geometrica nella Generazione Video
I ricercatori hanno introdotto un nuovo strumento chiamato PDI-Bench, o Indice di Distorsione Prospettica, per valutare quanto bene i video generati dall'IA mantengano la coerenza geometrica. Questo quadro affronta la sfida di valutare il realismo delle forme e dei movimenti 3D nei modelli video generativi, poiché i metodi esistenti spesso si basano sul giudizio personale. PDI-Bench utilizza dati focalizzati sugli oggetti provenienti da strumenti di segmentazione e tracciamento (come SAM 2, MegaSaM e CoTracker3) per convertire queste informazioni in coordinate 3D attraverso la ricostruzione monoculare. Misura gli errori di geometria proiettiva in tre aree chiave: allineamento profondità-scala, coerenza del movimento 3D e rigidità delle strutture 3D. Per supportare valutazioni approfondite, i ricercatori hanno compilato il PDI-Dataset, che presenta scenari diversi per i test. Questo studio è dettagliato in un articolo su arXiv (2605.15185).
Fatti principali
- PDI-Bench è un quadro quantitativo per verificare la coerenza geometrica nei video generati.
- Utilizza SAM 2, MegaSaM e CoTracker3 per la segmentazione e il tracciamento dei punti.
- Vengono misurate tre dimensioni di fallimento: allineamento scala-profondità, coerenza del movimento 3D e rigidità strutturale 3D.
- PDI-Dataset copre scenari diversi per stressare la coerenza geometrica.
- L'articolo è disponibile su arXiv con ID 2605.15185.
- I pipeline di valutazione video esistenti si basano sul giudizio umano o su valutatori appresi.
- Il quadro solleva le osservazioni in coordinate 3D dello spazio mondiale tramite ricostruzione monoculare.
- I modelli video generativi sono studiati come modelli del mondo impliciti.
Entità
Istituzioni
- arXiv