VINA: Un Framework Unificato per il Rilevamento di Immagini e Video Generati dall'IA

ai-technology · 2026-05-23

Un nuovo articolo di ricerca propone VINA (Video as Natural Augmentation), un framework unificato per rilevare immagini e video generati dall'IA. Gli autori identificano una modalità critica di fallimento: i rilevatori di immagini IA più avanzati spesso collassano quando applicati a fotogrammi video a causa di gap cross-modali derivanti da cambiamenti nell'elaborazione video e impronte digitali specifiche del modello. VINA si allena congiuntamente su dati di immagini e video, utilizzando i fotogrammi video come aumenti naturali, e introduce l'apprendimento contrastivo supervisionato cross-modale per colmare il divario. L'articolo è disponibile su arXiv con ID 2605.21977.

Fatti principali

ID arXiv: 2605.21977
Titolo dell'articolo: Video as Natural Augmentation: Towards Unified AI-Generated Image and Video Detection
Propone il framework VINA
Identifica il fallimento dei rilevatori di immagini SOTA sui fotogrammi video
Gap cross-modale dovuto a cambiamenti nell'elaborazione video e impronte digitali del generatore
Addestramento congiunto su dati di immagini e video
Utilizza fotogrammi video come aumenti naturali
Introduce l'apprendimento contrastivo supervisionato cross-modale

VINA: Un Framework Unificato per il Rilevamento di Immagini e Video Generati dall'IA

Fatti principali

Entità

Istituzioni

Fonti