ARTFEED — Contemporary Art Intelligence

VINA: Un Framework Unificato per il Rilevamento di Immagini e Video Generati dall'IA

ai-technology · 2026-05-23

Un nuovo articolo di ricerca propone VINA (Video as Natural Augmentation), un framework unificato per rilevare immagini e video generati dall'IA. Gli autori identificano una modalità critica di fallimento: i rilevatori di immagini IA più avanzati spesso collassano quando applicati a fotogrammi video a causa di gap cross-modali derivanti da cambiamenti nell'elaborazione video e impronte digitali specifiche del modello. VINA si allena congiuntamente su dati di immagini e video, utilizzando i fotogrammi video come aumenti naturali, e introduce l'apprendimento contrastivo supervisionato cross-modale per colmare il divario. L'articolo è disponibile su arXiv con ID 2605.21977.

Fatti principali

  • ID arXiv: 2605.21977
  • Titolo dell'articolo: Video as Natural Augmentation: Towards Unified AI-Generated Image and Video Detection
  • Propone il framework VINA
  • Identifica il fallimento dei rilevatori di immagini SOTA sui fotogrammi video
  • Gap cross-modale dovuto a cambiamenti nell'elaborazione video e impronte digitali del generatore
  • Addestramento congiunto su dati di immagini e video
  • Utilizza fotogrammi video come aumenti naturali
  • Introduce l'apprendimento contrastivo supervisionato cross-modale

Entità

Istituzioni

  • arXiv

Fonti