Φ-Noise: Condizionamento Video Temporale Senza Addestramento tramite Manipolazione del Rumore Basata sulla Fase
I ricercatori hanno svelato un metodo innovativo chiamato Φ-Noise, progettato per creare video condizionati dal movimento senza alcun addestramento preliminare. Questo approccio utilizza informazioni di fase a bassa frequenza da un video di riferimento, incorporandole nei latenti del rumore di diffusione. Di conseguenza, trasmette efficacemente i segnali di movimento mantenendo inalterati la struttura e l'inferenza del modello, ottenendo risultati paragonabili a metodi di condizionamento più complessi. Questo progresso trae ispirazione da studi che sottolineano l'importanza delle componenti di frequenza nei modelli generativi, dimostrando la sua capacità di gestire sia i dettagli visivi che il movimento nei video in diversi contesti.
Fatti principali
- Φ-Noise è un approccio senza addestramento per la generazione di video condizionati dal movimento.
- Inietta informazioni di fase a bassa frequenza da un video di riferimento nei latenti del rumore di diffusione.
- Il metodo non modifica l'architettura del modello né la pipeline di inferenza.
- Raggiunge risultati competitivi o superiori rispetto ad approcci di condizionamento più complessi.
- L'approccio è motivato da scoperte sull'importanza delle componenti di frequenza nei modelli generativi.
- Dimostra un controllo efficace sia sull'aspetto che sulla dinamica dei video generati.
- Diverse applicazioni vengono utilizzate per dimostrare l'efficacia del metodo.
- L'articolo è classificato sotto Visione Artificiale e Riconoscimento di Pattern.
Entità
Istituzioni
- arXiv