Nuovo Framework HQA-VLAttack Colpisce i Modelli AI Visione-Linguaggio con Esempi Avversari di Alta Qualità
Un nuovo articolo di ricerca presenta HQA-VLAttack, un framework progettato per creare esempi avversari di alta qualità per modelli pre-addestrati di visione e linguaggio. Affronta attacchi black-box, che utilizzano solo le previsioni del modello, considerando sia alterazioni testuali che visive. Gli approcci esistenti spesso dipendono da metodi iterativi ad alta intensità di risorse o si concentrano esclusivamente su coppie immagine-testo positive, limitandone l'efficacia. HQA-VLAttack funziona in due fasi: generazione di perturbazioni testuali attraverso vettori di parole counter-fitting ed esecuzione di attacchi visivi. Questo studio affronta la fase iniziale della ricerca sugli attacchi avversari, mirando a migliorare l'efficienza delle query e la riduzione della similarità. Il framework punta a rafforzare i test di robustezza dei sistemi AI multimodali. La ricerca è stata pubblicata su arXiv con identificatore 2604.16499v1, contribuendo all'analisi delle vulnerabilità dei modelli AI.
Fatti principali
- HQA-VLAttack è un framework per generare esempi avversari su modelli pre-addestrati di visione e linguaggio
- L'approccio affronta attacchi black-box dove sono accessibili solo i risultati previsti
- I metodi esistenti utilizzano strategie complesse di ricerca incrociata iterativa che richiedono molte query
- Le tecniche attuali spesso ignorano la riduzione della similarità delle coppie immagine-testo negative
- Il framework consiste in fasi di attacco testuale e visivo
- La generazione di perturbazioni testuali sfrutta vettori di parole counter-fitting
- La ricerca su questo specifico problema di attacco avversario è descritta come nella sua fase iniziale
- L'articolo è stato pubblicato su arXiv con identificatore 2604.16499v1
Entità
Istituzioni
- arXiv