Nuova ricerca propone un framework gerarchico per rafforzare i modelli visione-linguaggio contro gli attacchi avversari

ai-technology · 2026-04-22

È stato sviluppato un nuovo framework per il fine-tuning avversario per migliorare la resilienza dei Modelli Visione-Linguaggio (VLM) contro minacce mirate. Questo metodo utilizza l'organizzazione gerarchica naturale degli spazi delle classi, affrontando una debolezza in cui i modelli vacillano quando gli attacchi avversari si concentrano sia sulle superclassi, come 'mammifero', sia sulle loro specifiche classi foglia come 'gatto'. Le attuali strategie di fine-tuning robusto spesso abbinano embedding testuali fissi con embedding di immagini, potenzialmente compromettendo le prestazioni complessive e la robustezza. Il framework innovativo introduce embedding gerarchici e stabilisce più livelli di allineamento robusto avversario tra le modalità testo e immagine. Incorpora inoltre meccanismi per posizionare gli embedding visivi a specifiche profondità all'interno della gerarchia. Viene stabilita una connessione teorica tra la profondità dell'embedding nella gerarchia e la dimensione massima del margine fattibile. Questa ricerca, presentata nel documento 'Hierarchically Robust Zero-shot Vision-language Models' (arXiv:2604.18867v1), rappresenta uno sforzo interdisciplinare volto a migliorare la classificazione zero-shot nei VLM, che rimangono vulnerabili agli attacchi avversari nonostante le loro sofisticate capacità.

Fatti principali

I Modelli Visione-Linguaggio (VLM) possono eseguire la classificazione zero-shot ma sono vulnerabili agli attacchi avversari.
I metodi esistenti di fine-tuning robusto allineano embedding testuali fissi con embedding di immagini, sacrificando le prestazioni naturali e la robustezza.
Si verifica un degrado della robustezza quando i modelli affrontano attacchi avversari che prendono di mira le superclassi (classi genitore) oltre alle classi foglia base.
Il framework proposto si basa su embedding gerarchici e diversi livelli di allineamento robusto avversario delle modalità immagine-testo.
Meccanismi aggiuntivi posizionano gli embedding visivi alla profondità desiderata della gerarchia.
Viene fornita una connessione teorica tra la profondità dell'embedding nella gerarchia e la dimensione massima del margine percorribile.
La ricerca è dettagliata nel documento 'Hierarchically Robust Zero-shot Vision-language Models' con identificatore arXiv:2604.18867v1.
Il tipo di annuncio per il documento è cross, indicando uno studio interdisciplinare.

Entità

—

Fonti

arXiv cs.AI — 2026-04-22