Pipeline AI genera animazioni da prompt testuali
Un team di ricercatori ha presentato Generative Animations, un sistema che trasforma istruzioni in linguaggio naturale in animazioni pronte per la produzione, collegando Large Language Models (LLM) con il Segment Anything Model (SAM). Questa pipeline crea autonomamente percorsi di movimento che considerano la geometria della scena, gestiscono le occlusioni legate alla profondità e rispettano le trasformazioni prospettiche 3D. Mostrato attraverso tre esempi—percorsi che seguono i contorni, animazioni orbitali con considerazione dell'ordine z, e movimento allineato con la prospettiva su oggetti alterati—il sistema mira a semplificare il processo di animazione, eliminando la necessità di scelte manuali di preset o di tracciamento di punti Bézier. Questa ricerca è disponibile su arXiv nei campi della visione artificiale e del riconoscimento di pattern.
Fatti principali
- Generative Animations trasforma prompt in linguaggio naturale in animazioni.
- Il sistema collega LLM per l'analisi semantica con SAM per l'ancoraggio visivo.
- I percorsi di movimento rispettano la geometria della scena, le occlusioni basate sulla profondità e le trasformazioni prospettiche 3D.
- Tre casi d'uso: seguimento di contorni, animazioni orbitali, movimento allineato alla prospettiva.
- Mira a eliminare la selezione manuale di preset e il tracciamento di punti Bézier.
- Pubblicato su arXiv sotto Computer Vision and Pattern Recognition.
- Cronologia delle sottomissioni e riferimenti disponibili su arXiv.
- Framework arXivLabs menzionato per progetti sperimentali.
Entità
Istituzioni
- arXiv
- Semantic Scholar