SimInsert: Inserimento di Oggetti in Video senza Addestramento tramite Attenzione Sparsa
SimInsert è un paradigma senza addestramento per l'inserimento di oggetti in video che scompone il compito in editing di singolo fotogramma e descrizione semantica del movimento. Sfrutta modelli di diffusione da immagine a video per propagare le modifiche temporalmente, preservando l'invarianza dello sfondo e consentendo interazioni guidate dal testo. L'approccio utilizza meccanismi di guida non invasivi per garantire coerenza strutturale, facilitare la fusione senza soluzione di continuità dei bordi e contrastare la deriva di fedeltà. L'articolo è disponibile su arXiv con ID 2605.23245.
Fatti principali
- SimInsert è un paradigma senza addestramento per l'inserimento di oggetti in video.
- Scompone il compito in editing di singolo fotogramma e descrizione semantica del movimento.
- Utilizza modelli di diffusione da immagine a video per la propagazione temporale.
- Preserva l'invarianza dello sfondo.
- Consente interazioni guidate dal testo tra l'oggetto inserito e l'ambiente.
- Utilizza meccanismi di guida non invasivi per la coerenza strutturale.
- Facilita la fusione senza soluzione di continuità dei bordi.
- Contrasta la deriva di fedeltà.
- L'articolo è su arXiv con ID 2605.23245.
Entità
Istituzioni
- arXiv