VINA: Un Framework Unificato per il Rilevamento di Immagini e Video Generati dall'IA
Un nuovo articolo di ricerca propone VINA (Video as Natural Augmentation), un framework unificato per rilevare immagini e video generati dall'IA. Gli autori identificano una modalità critica di fallimento: i rilevatori di immagini IA più avanzati spesso collassano quando applicati a fotogrammi video a causa di gap cross-modali derivanti da cambiamenti nell'elaborazione video e impronte digitali specifiche del modello. VINA si allena congiuntamente su dati di immagini e video, utilizzando i fotogrammi video come aumenti naturali, e introduce l'apprendimento contrastivo supervisionato cross-modale per colmare il divario. L'articolo è disponibile su arXiv con ID 2605.21977.
Fatti principali
- ID arXiv: 2605.21977
- Titolo dell'articolo: Video as Natural Augmentation: Towards Unified AI-Generated Image and Video Detection
- Propone il framework VINA
- Identifica il fallimento dei rilevatori di immagini SOTA sui fotogrammi video
- Gap cross-modale dovuto a cambiamenti nell'elaborazione video e impronte digitali del generatore
- Addestramento congiunto su dati di immagini e video
- Utilizza fotogrammi video come aumenti naturali
- Introduce l'apprendimento contrastivo supervisionato cross-modale
Entità
Istituzioni
- arXiv